机器学习特征选择
在机器学习系统中经常要计算特征的重要性,并找出典型特征,并能可视化呈现出来,
以下的方法是可以被使用到的:
1,相关性分析;(比如线性的使用最为广泛的 Pearson 相关系数等,非线性的比如基于互信息的 MRMR 等)
2,部分依赖图;
3,基于线性模型回归的比如 Lasso回归等的系数非零的item都可以考虑进去;
4,基于树模型的选择;比如常用的 xgb 模型,xgb 模型有FeatureImportance之类的函数支撑;它们在模型里面经常会定义指标 Gini 系数等;
5,基于NN的梯度变化或者attention系数变化来估计,或者 LRP 基于反向传播的 relevance score等,DFS 和 AFS可以参考:https://www.researchgate.net/publication/271329170_Deep_feature_selection_Theory_and_application_to_identify_enhancers_and_promoters。
CC BY-NC-SA 4.0
版权声明
本文由 Xiang CHEN 陈向 创作,采用 CC BY-NC-SA 4.0 协议,首发于 https://chenxofhit.xyz 个人网站。
您可以自由地:
- 分享 — 在任何媒介以任何形式复制、发行本作品
- 演绎 — 修改、转换或以本作品为基础进行创作
惟须遵守下列条件:
- 署名 — 您必须给出适当的署名,提供指向本许可协议的链接,同时标明是否(对原始作品)作了修改。您可以用任何合理的方式来署名,但是不得以任何方式暗示许可人为您或您的使用背书。
- 非商业性使用 — 您不得将本作品用于商业目的。
- 相同方式共享 — 如果您再混合、转换或者基于本作品进行创作,您必须基于与原先许可协议相同的许可协议分发您贡献的作品。
商业使用请联系:[email protected]