机器学习特征选择
在机器学习系统中经常要计算特征的重要性,并找出典型特征,并能可视化呈现出来,
以下的方法是可以被使用到的:
1,相关性分析;(比如线性的使用最为广泛的 Pearson 相关系数等,非线性的比如基于互信息的 MRMR 等)
2,部分依赖图;
3,基于线性模型回归的比如 Lasso回归等的系数非零的item都可以考虑进去;
4,基于树模型的选择;比如常用的 xgb 模型,xgb 模型有FeatureImportance之类的函数支撑;它们在模型里面经常会定义指标 Gini 系数等;
5,基于NN的梯度变化或者attention系数变化来估计,或者 LRP 基于反向传播的 relevance score等,DFS 和 AFS可以参考:https://www.researchgate.net/publication/271329170_Deep_feature_selection_Theory_and_application_to_identify_enhancers_and_promoters。