Bias和Variance是影响模型性能的两个重要来源:
一、Bias
Bias是模型本身存在的偏差,表示模型无法学习到数据的全部模式。高偏差往往导致欠拟合。
在下图中,蓝色曲线代表具有较高偏差的模型:
高Bias通常的性能表现:
- 低的训练集score
- 低的测试集score
降低Bias的方法包括:
- 增加模型复杂度
- 增加新特征
二、Variance
Variance表示由训练数据随机波动而引起的变化。高Variance往往导致过拟合。
在下图中,绿色曲线代表具有较高Variance的模型:
高Variance通常的性能表现:
- 高的训练集score
- 低的测试集score
降低Variance的方法包括:
- 减少模型复杂度
- 使用正则化等技巧
三、权衡
在实际应用中,模型存在Bias和Variance。需要权衡以达到好的泛化性能。
简单的模型存在高Bias但是低Variance。
复杂的模型存在低Bias但是高Variance。
在下图中,橙色曲线代表Bias和Variance相对平衡的模型:
总的来说:
- Bias代表模型本身的偏差
- Variance代表数据随机波动的影响
- Bias主要导致欠拟合
- Variance主要导致过拟合
- 需要在Bias和Variance中找到平衡
合理降低Bias和Variance可以有效提升模型的泛化能力。