评价聚类的主要方法包括:
一、轮廓系数
轮廓系数 计算每个样本与其簇内所有其他点的平均距离与与最近簇之间的平均距离之间的比率。
值越大表示聚类效果越好。
公式:
silhouette coefficient = (b-a)/max(a,b)
其中 a为与中心点的平均距离,b 为与最近的簇的平均距离
二、Davies-Bouldin index
类内散布应当小于类间散布。
DB Index 小表示聚类效果好。
公式:
DB = (1/n) * Σ (max(i != j)(Di + Dj)/dij )
三、半部分F指标
该指标综合考虑纯度和完整度两个方面。F值越大表明聚类效果越好。
公式:
F = 2 * purity * completeness/(purity + completeness)
四、互信息量
计算集群内的样本与标签之间的互信息量。
互信息越大,集群效果越好。
五、Homogeneity 和Completeness
Homogeneity测量每个簇是否只包含一个类的样本。
Completeness 测量所有一个类的样本是否被分配到同一个簇中。
值越大聚类效果越好。
总的来说,常见的聚类评价方法包括:
- 轮廓系数
- Davies-Bouldin 值
- F指标
- 互信息量
- Homogeneity和Completeness
它们从不同方面衡量聚类效果:
- 类内散布
- 类间散布
- 纯度
- 完整度
- 信息含量
- 单独类的相似性
综合使用能更全面的评估聚类算法。