K-邻近算法

2024-08-29

特点

  • 适用多分类问题、对稀有事件进行分类(例如当流失率很低时,比如低于0.5%,构造流失预测模型)。

  • 可解释性较差。

  • 监督学习,需要训练数据。样本→训练模型 ,其他输入→模型→预测输出

重要参数

距离度量

特征空间中的两个实例点的距离是两个实例点相似程度的反映。K近邻法的特征空间一般是n维实数向量空间Rn。使用的距离是欧氏距离,但也可以是其他距离,如更一般的Lp距离或Minkowski距离。

    设特征空间X是n维实数向量空间$R^n$,$ x_i,x_j\in X$,$x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T $,$x_j=(x_j^{(1)},x_j^{(2)},\cdots,x_j^{(n)})^T $,$x_i,x_j$的Lp距离为 \(L_p(x_i,x_j)=(\sum_{l=1}^{n}|{x_i}^{(l)}-{x_j}^{(l)}|^p)^{\frac{1}{p}}\)

k值

依据输入数据的类别多少。

分类依据

分类问题中以多数类决定,回归问题以输出平均值决定。