K近邻算法的工作原理主要包括三个部分:
一、训练集存入
输入的所有样本点和标签存入表中,以便后续快速查询。
二、计算距离
对新的样本点,计算与所有训练数据点的距离。
距离一般用欧式距离。
公式为:
d(x, y) = √(x1 - y1)^2 + (x2 - y2)^2 + ...
三、选择最近相邻
从所有训练数据点中选择与新点距离最短的K个点。
这K个点即为该点的K近邻。
四、分类
统计这K个近邻点中出现最多的类别,作为该新点的预测类别。
总的来说,K近邻算法的工作原理为:
- 存储所有的训练数据集
- 计算新点与所有点的距离
- 选择与新点距离最近的k个点(K近邻)
- 统计K个近邻点中出现最多的类别
- 将这个类别作为新点的预测类别
其中:
- 数据集作为训练样本被存储
- 计算点与点的距离
- 根据距离选取近邻点
- 根据近邻点类别进行预测
这种算法简单直接。但效率低下,因为每次预测都需要与所有点计算距离。