K均值（KMeans）

程序员李某某大约 3 分钟

K均值（KMeans）

概念

无监督
相似数据分组
要得到簇的个数，需要指定簇的个数k
质心：数据集的质心，即数据集的均值C
距离：欧式距离、余弦相似度 (先数据标准化)
优化目标$\min \sum_{i=1}^{k} \sum_{x∈C_i} ||x - c_i||^2$
优点：
- 简单直观：原理易于理解，实现流程清晰
- 高效实用：适合常规数据集（如明显可分的数据分布）
- 参数简单：只需确定k值即可开始聚类
缺点：
- k值敏感：最优k值难以确定
- 计算复杂度：与样本量呈线性关系（每次迭代需计算所有样本点到质心距离）
- 形状限制：仅能发现凸形簇（环绕状、交叉、缠绕等复杂簇结构效果差）
- 受初始点影响大，多次选择初始点取均值

原理

随机选择k个样本点作为初始质心C1,C2,C3,...,Ck
计算每个样本点到质心的距离，将样本点分配给距离最近的质心所属的簇
更新质心的位置：将簇内所有样本点的均值作为新的质心位置
重复步骤2和步骤3，直到质心的位置不再变化或者达到最大迭代次数为止

参数

初始中心点的选取
- K-means++：初始聚类中心距离尽可能远
- 二分K-means：选择误差最大的聚类，进行二分分裂
空簇处理
- 其他簇心的均值
- 删除该簇
- 最远离聚类中心的点
特征工程
- 类别特征不适用K-means：无法基于距离
- 大数值特征不适用K-means：该算法对于异常值敏感，比如年龄、金额

评估

把 SSE（Sum of Squared Errors，误差平方和）与轮廓系数（Silhouette Coefficient）结合使用，评估聚类模型的效果

实现

import numpy as np
from matplotlib import pyplot


class K_Means(object):
    # k是分组数；tolerance‘中心点误差’；max_iter是迭代次数
    def __init__(self, k=2, tolerance=0.0001, max_iter=300):
        self.k_ = k
        self.tolerance_ = tolerance
        self.max_iter_ = max_iter

    def fit(self, data):
        self.centers_ = {}
        for i in range(self.k_):
            self.centers_[i] = data[i]

        for i in range(self.max_iter_):
            self.clf_ = {}
            for i in range(self.k_):
                self.clf_[i] = []
            # print("质点:",self.centers_)
            for feature in data:
                # distances = [np.linalg.norm(feature-self.centers[center]) for center in self.centers]
                distances = []
                for center in self.centers_:
                    # 欧拉距离
                    # np.sqrt(np.sum((features-self.centers_[center])**2))
                    distances.append(np.linalg.norm(feature - self.centers_[center]))
                classification = distances.index(min(distances))
                self.clf_[classification].append(feature)

            # print("分组情况:",self.clf_)
            prev_centers = dict(self.centers_)
            for c in self.clf_:
                self.centers_[c] = np.average(self.clf_[c], axis=0)

            # '中心点'是否在误差范围
            optimized = True
            for center in self.centers_:
                org_centers = prev_centers[center]
                cur_centers = self.centers_[center]
                if np.sum((cur_centers - org_centers) / org_centers * 100.0) > self.tolerance_:
                    optimized = False
            if optimized:
                break

    def predict(self, p_data):
        distances = [np.linalg.norm(p_data - self.centers_[center]) for center in self.centers_]
        index = distances.index(min(distances))
        return index


if __name__ == '__main__':
    x = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]])
    k_means = K_Means(k=2)
    k_means.fit(x)
    print(k_means.centers_)
    for center in k_means.centers_:
        pyplot.scatter(k_means.centers_[center][0], k_means.centers_[center][1], marker='*', s=150)

    for cat in k_means.clf_:
        for point in k_means.clf_[cat]:
            pyplot.scatter(point[0], point[1], c=('r' if cat == 0 else 'b'))

    predict = [[2, 1], [6, 9]]
    for feature in predict:
        cat = k_means.predict(feature)
        pyplot.scatter(feature[0], feature[1], c=('r' if cat == 0 else 'b'), marker='x')

    pyplot.show()

改进

缺点	改进
k值不好选取	ISODATA
对初始聚类中心敏感	k-means++
对于非凸数据集难收敛	DBSCAN
数据类型不平衡，效果不佳	CUSBoost
迭代得到的是局部最优解	二分k-means
对噪音、异常点敏感	K-Mediods

K均值（KMeans）

# K均值（KMeans）

# 概念

# 原理

# 参数

# 评估

# 实现

# 改进

K均值（KMeans）

概念

原理

参数

评估

实现

改进