<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>特征工程 on Xiang CHEN 陈向</title>
    <link>https://chenxofhit.xyz/tags/%E7%89%B9%E5%BE%81%E5%B7%A5%E7%A8%8B/</link>
    <description>Recent content in 特征工程 on Xiang CHEN 陈向</description>
    <generator>Hugo</generator>
    <language>en-us</language>
    <copyright>Xiang CHEN</copyright>
    <lastBuildDate>Thu, 04 Feb 2021 14:04:19 +0800</lastBuildDate>
    <atom:link href="https://chenxofhit.xyz/tags/%E7%89%B9%E5%BE%81%E5%B7%A5%E7%A8%8B/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>机器学习特征选择</title>
      <link>https://chenxofhit.xyz/posts/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%89%B9%E5%BE%81%E9%80%89%E6%8B%A9/</link>
      <pubDate>Thu, 04 Feb 2021 14:04:19 +0800</pubDate>
      <guid>https://chenxofhit.xyz/posts/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%89%B9%E5%BE%81%E9%80%89%E6%8B%A9/</guid>
      <description>&lt;p&gt;在机器学习系统中经常要计算特征的重要性，并找出典型特征，并能可视化呈现出来，&lt;/p&gt;&#xA;&lt;p&gt;以下的方法是可以被使用到的：&lt;/p&gt;&#xA;&lt;p&gt;1，相关性分析；（比如线性的使用最为广泛的 Pearson 相关系数等，非线性的比如基于互信息的 MRMR 等）&lt;/p&gt;&#xA;&lt;p&gt;2，部分依赖图；&lt;/p&gt;&#xA;&lt;p&gt;3，基于线性模型回归的比如 Lasso回归等的系数非零的item都可以考虑进去；&lt;/p&gt;&#xA;&lt;p&gt;4，基于树模型的选择；比如常用的 xgb 模型，xgb 模型有FeatureImportance之类的函数支撑；它们在模型里面经常会定义指标 Gini 系数等；&lt;/p&gt;&#xA;&lt;p&gt;5，基于NN的梯度变化或者attention系数变化来估计，或者 LRP 基于反向传播的 relevance score等，DFS 和 AFS可以参考：https://www.researchgate.net/publication/271329170_Deep_feature_selection_Theory_and_application_to_identify_enhancers_and_promoters。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
