机器学习中常用的特征选择方法主要有:
一、过滤法(Filter Method)
这种基于测量特征本身的稳定性和相关性来选择特征。
主要方法包括:
- 相关系数法
- 互信息法
- 卡方检验法
二、嵌入法(Wrapper Method)
这种方法在模型训练过程中选择特征,并观察其对模型性能的影响。
具体做法为:
- 初始化一个特征集
- 用这个特征集训练模型
- 计算训练出的模型的效果,如准确率
- 去掉这个特征集中的一个特征
- 重复2-4步骤,获取没有该特征集合训练出的模型的效果
- 对比两个效果,选择效果好的特征集
- 重复这个过程,逐渐去掉不重要的特征
三、嵌入法(Embedded Method)
将特征选择作为模型训练的过程的一部分进行。
常用于树回归、逻辑回归、PCA等算法。
具体做法为:
- 初始化所有特征
- 根据特征的重要性进行排序
- 去掉 ranked 最后的特征
- 重复此过程直到满意
四、基于信息 Gain 的方法
这种方法根据每一个特征的信息增益来选择特征。
信息增益越高的特征对分类信息的贡献越大。
总的来说,机器学习中常用的特征选择方法主要有:
- 过滤法(根据特征本身特性)
- 包裹法(根据模型效果)
- 嵌入法(作为模型训练的一部分)
- 基于信息增益