机器学习特征选择

2021-02-04

machine learning , 特征工程

在机器学习系统中经常要计算特征的重要性，并找出典型特征，并能可视化呈现出来，

以下的方法是可以被使用到的：

1，相关性分析；（比如线性的使用最为广泛的 Pearson 相关系数等，非线性的比如基于互信息的 MRMR 等）

2，部分依赖图；

3，基于线性模型回归的比如 Lasso回归等的系数非零的item都可以考虑进去；

4，基于树模型的选择；比如常用的 xgb 模型，xgb 模型有FeatureImportance之类的函数支撑；它们在模型里面经常会定义指标 Gini 系数等；

5，基于NN的梯度变化或者attention系数变化来估计，或者 LRP 基于反向传播的 relevance score等，DFS 和 AFS可以参考：https://www.researchgate.net/publication/271329170_Deep_feature_selection_Theory_and_application_to_identify_enhancers_and_promoters。

CC BY-NC-SA 4.0 by Xiang CHEN 陈向

本文由 Xiang CHEN 陈向 创作，采用 CC BY-NC-SA 4.0 协议，首发于 https://chenxofhit.xyz 个人网站。

您可以自由地：

分享 — 在任何媒介以任何形式复制、发行本作品
演绎 — 修改、转换或以本作品为基础进行创作

惟须遵守下列条件：

署名 — 您必须给出适当的署名，提供指向本许可协议的链接，同时标明是否（对原始作品）作了修改。您可以用任何合理的方式来署名，但是不得以任何方式暗示许可人为您或您的使用背书。
非商业性使用 — 您不得将本作品用于商业目的。
相同方式共享 — 如果您再混合、转换或者基于本作品进行创作，您必须基于与原先许可协议相同的许可协议分发您贡献的作品。

商业使用请联系：[email protected]