决策树算法的工作原理主要分为四个部分:
一、特征选择
每个节点选择最优的特征来分离数据。
选择标准是信息增益(Information Gain):
InfoGain(D, attribute) = H(D) - H(D|attribute)
其中H(D)是数据集D的熵,H(D|attribute)是关于特征attribute分割后的数据集的条件熵。
二、创建子节点
根据每个特征的值将数据划分到子节点中。
直到每一个子集中属于同一类。
三、剪枝
考虑过拟合,采用预剪枝和后剪枝提前终止生成树。
四、分类
对新样本,根据决策树路径从上到下直到叶子节点进行分类。
综上,决策树的工作原理包括:
- 根据信息增益选择最优特征划分节点
- 根据特征值创建子节点并划分数据
- 使用剪枝避免过拟合
- 新样本按树路径分类到叶子节点
其中选择最优特征划分节点的核心在于:
- 计算不同特征的信息增益
- 选择信息增益最大的特征
- 根据该特征划分子节点