K-Means算法

发布时间：2023年12月27日

更新时间：2024年1月26日

运用划分式聚类的往年获奖论文

官方评析:MCM/ICM:2023:2311717

官方评析:MCM/ICM:2023:2300348

官方评析:MCM/ICM:2023:2318036

官方评析:MCM/ICM:2023:2314151

官方评析:MCM/ICM:2023:2307946

官方评析:MCM/ICM:2023:2309397

官方评析:MCM/ICM:2023:2301192

官方评析:MCM/ICM:2023:2315018

官方评析:MCM/ICM:2023:2320131

官方评析:MCM/ICM:2023:2314817

官方评析:MCM/ICM:2023:2314354

定义与详解

原理

K-Means算法的目标是将n个数据点分配到k个簇中（k是预先指定的固定数目），使得每个点属于与其最近的均值（即簇中心）对应的簇，以此使得簇内的数据点尽可能相似（即方差尽可能小），而不同簇之间的数据点尽可能不同。

用数学语言表示，则有：

假设数据集由n个数据点组成，记为 ${x_1, x_2, ..., x_n}$ ，其中每个数据点 $x_i$ 是一个d维的实向量。K-Means算法试图找到k个簇的集合 ${S_1, S_2, ..., S_k}$ ，以最小化簇内误差平方和（Within-cluster Sum of Squares, WCSS），公式如下：

\text{WCSS} = \sum_{i=1}^{k} \sum_{x \in S_i} ||x - \mu_i||^2

其中， $||x - \mu_i||^2$ 是数据点 $x$ 与其簇中心 $\mu_i$ 之间的欧氏距离的平方，簇中心 $\mu_i$ 是簇 $S_i$ 中所有点的均值。

算法步骤如下：

初始化：选择k个随机点作为簇中心 $\mu_1, \mu_2, ..., \mu_k$ 。
分配阶段：对于每个点 $x_i$ ，找到最近的簇中心 $\mu_j$ ，将 $x_i$ 分配到簇 $S_j$ 。
更新阶段：对于每个簇 $S_i$ ，更新簇中心 $\mu_i$ 为 $S_i$ 中所有点的均值。
迭代：重复步骤2和3，直到满足停止条件。

模型假设和数据预处理

k-means聚类对数据的主要假设如下：

簇的大小大致相同：k-means假定每个簇的大小大致相同。如果簇的实际大小差异很大，算法可能会劣化，因为它倾向于忽略小簇而偏向于大簇。
簇的形状为球形：k-means通常假设簇的形状大致是球形的（即，簇在各个方向上的扩展程度相似）。如果簇在现实中是非球形的，例如拉长的椭圆形，k-means可能不能很好地识别这些簇。
簇的数量为定值：K-means要求用户事先指定簇的数量K。在实际应用中，这可能是一个问题，因为我们事先往往不知道应该有多少簇。
误差度量为欧几里得距离：k-means使用欧几里得距离来量化误差，这意味着它假设簇内的数据点围绕中心对称分布。如果数据的分布不是以这种方式对称的，那么k-means可能不是最佳的聚类方法。

由于这些假设，通常需要对数据进行预处理以提高k-means的性能：

标准化/归一化：由于k-means使用欧几里得距离作为相似性度量，因此不同特征的尺度差异可能会对聚类结果产生重大影响。通常需要将数据进行标准化（例如，z-score标准化）或者归一化（例如，将数据缩放到[0, 1]区间），以确保每个特征对距离的贡献是公平的。
处理异常值：异常值可能会对k-means的簇中心计算产生不成比例的影响，因此可能需要检测和处理异常值。
确定K值：需要使用一些方法来确定最佳的簇数量K，比如肘部法则、轮廓系数或其他更高级的方法。
考虑数据的分布：如果数据的分布不是k-means算法假设的球形，可能需要使用其他的聚类算法，如谱聚类或密度聚类。
特征选择和提取：在某些情况下，原始数据集中可能包含不相关或冗余的特征。通过特征选择和提取，可以减少噪声并提高聚类的性能。

确定簇数k

这里主要讲解肘部法则。

肘部法则这个名字来源于它的图形特点，我们可以通过一个图表来帮助我们找到最合适的簇数。在这个图表中，横轴表示簇数，纵轴表示每个簇内的果实与其质心的距离之和（也就是聚类的紧密度），我们称这个距离之和为“内部类平方和”（WCSS）。

开始时，你只有一堆数据点（簇数为1），这时候所有数据点距离它们的质心非常远，因为它们都被算在同一堆里了。然后随着簇数的增加，每堆里的数据点数量变少了，数据点和它们质心的平均距离自然就减小了。这样，图表的纵轴值（内部类平方和）就开始下降。

但是，随着你继续增加簇数，改善程度会开始减慢，曲线上的下降趋势会变得平缓，就像手臂的肘部一样。这个“肘点”通常意味着再增加簇数带来的改善变得不那么显著了。换句话说，就是再分更多堆也不会显著提高分类的质量了。

所以，肘部法则告诉我们，就像找到手臂的肘部位置一样，我们应该找到图表上的那个“肘点”，在这个点之后，增加簇数的效果会大打折扣。这个“肘点”通常被认为是最佳的簇数。

k-means算法应用肘部法则确定簇数的具体步骤如下：

步骤 1: 初始化

选择一个簇数范围。比如，你可以从1开始，到10或更多结束，具体取决于数据集的大小和特性。

步骤 2: 对每个簇数运行k-means

对于每个簇数k（从你的范围内选择），运行k-means算法。这里的步骤和本页的[K-Means算法的定义和原理]中一样。

每次运行完成后，计算该次运行的内部类平方和 $S(k)$ ，公式如下：

S(k) = \sum_{i=1}^{k} \sum_{x \in C_i} {\lVert x - \mu_i \rVert}^2 .

其中， $C_i$ 是第 $i$ 个簇， $\mu_i$ 是 $C_i$ 的质心， $x$ 是 $C_i$ 中的数据点， $\lVert x - \mu_i \rVert$ 是数据点 $x$ 到其质心 $\mu_i$ 的欧氏距离。

步骤 3: 绘制肘部曲线

创建一个图表，横轴是簇数k，纵轴是对应的内部类平方和 $S(k)$ 。随着k的增加， $S(k)$ 通常会减少，因为数据点更有可能被分配到它们真正属于的簇中。

步骤 4: 寻找肘点

观察图表，寻找曲线开始变得平坦的点，这通常是内部类平方和的下降速度明显变缓的地方。这个点就像人的肘部，因此被称为肘点。

步骤 5: 选择簇数

选择肘点对应的簇数k作为最终的簇数。这个簇数通常被认为是一个合适的折中选择，因为在这一点上，增加更多的簇不会显著提高数据的聚类效果。

肘部法可能不总是完美的。在某些情况下，曲线可能非常平滑，难以确定肘点。在这种情况下，可能需要结合其他方法或领域知识来确定最佳的簇数。

参考代码：

python
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 假设我们有一些二维空间中的数据点
# 这里我们随机生成一些数据作为示例
np.random.seed(42)
data = np.random.rand(200, 2)

# 确定k的范围，比如从1到10
K_range = range(1, 11)

# 初始化内部类平方和列表
inertias = []

# 对每个k值运行k-means并计算内部类平方和
for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(data)
    # 将每次迭代的内部类平方和添加到列表中
    inertias.append(kmeans.inertia_)

# 绘制肘部图
plt.plot(K_range, inertias, 'bo-')
plt.xlabel('簇数 k')
plt.ylabel('内部类平方和 (Inertia)')
plt.title('肘部法则图')
plt.show()
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 假设我们有一些二维空间中的数据点
# 这里我们随机生成一些数据作为示例
np.random.seed(42)
data = np.random.rand(200, 2)

# 确定k的范围，比如从1到10
K_range = range(1, 11)

# 初始化内部类平方和列表
inertias = []

# 对每个k值运行k-means并计算内部类平方和
for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(data)
    # 将每次迭代的内部类平方和添加到列表中
    inertias.append(kmeans.inertia_)

# 绘制肘部图
plt.plot(K_range, inertias, 'bo-')
plt.xlabel('簇数 k')
plt.ylabel('内部类平方和 (Inertia)')
plt.title('肘部法则图')
plt.show()

输出结果：

评价指标

见评价指标。

实战分析

通过分析原始数据集testSet_kmeans.txt，通过多次测试，我们发现讲簇数设为4（k=4）比较合理。

参考代码（具体函数的实现、数据集在本页的[代码]里，这里方便阅读，只展现了主函数）：

python
if __name__ == '__main__':
	data_mat = mat(load_data("testSet_kmeans.txt"))
	centroid, cluster_assment = kMeans(data_mat, 4)
	wcss = sum(cluster_assment[:,1])
	print("wcss is ", wcss)
	plot_cluster(data_mat, cluster_assment, centroid)
if __name__ == '__main__':
	data_mat = mat(load_data("testSet_kmeans.txt"))
	centroid, cluster_assment = kMeans(data_mat, 4)
	wcss = sum(cluster_assment[:,1])
	print("wcss is ", wcss)
	plot_cluster(data_mat, cluster_assment, centroid)

输出结果：

none

wcss is  390.49592193262447

这看起来聚类效果很好，然而对于有些数据，聚类效果可能会打折扣。让我们回顾一下WCSS的计算公式：

\text{WCSS} = \sum_{i=1}^{k} \sum_{x \in S_i} ||x - \mu_i||^2

为了使聚类效果更好，我们需要找到一个k使WCSS最小，而这个函数本质上是非凸优化函数，这意味着它会存在局部最优解，求解结果可能会收敛于局部最优解而非全局最优解（关于凸优化函数的具体讲解）。

如下图所示：

可以发现该函数有两个局部最优点，当初始质心点取值不同的时候，最终的聚类效果也不一样。

接下来我们看一个具体的实例。这里用到了数据集testSet2_kmeans.txt。

参考代码：

python
if __name__ == '__main__':
	data_mat = mat(load_data("testSet2_kmeans.txt"))
	centroid, cluster_assment = kMeans(data_mat, 3)
	wcss = sum(cluster_assment[:,1])
	print("wcss is ", wcss)
	plot_cluster(data_mat, cluster_assment, centroid)
	test_diff_k()
if __name__ == '__main__':
	data_mat = mat(load_data("testSet2_kmeans.txt"))
	centroid, cluster_assment = kMeans(data_mat, 3)
	wcss = sum(cluster_assment[:,1])
	print("wcss is ", wcss)
	plot_cluster(data_mat, cluster_assment, centroid)
	test_diff_k()

输出结果：

none

wcss is  653.712046244568

由于K-Means对初始质心点的位置很敏感，且初始质心点是随机选取，所以有时K-Means的聚类效果不太好，例如第一张图。数据集本是很明显的大概由3簇组成，而K-Means却没有很好地区分开。

同时簇数k的取值也直接影响K-Means的聚类效果。

此外，K-Means算法对于凸性数据具有良好的效果，能够根据距离来讲数据分为球状类的簇，但对于非凸形状的数据点，就无能为力了，当k-means算法在环形数据的聚类时，我们看看会发生什么情况。

参考代码：

python
if __name__ == '__main__':
	data_mat,c = make_moons(n_samples=1000,noise=0.1)
	centroid, cluster_assment = kMeans(data_mat, 2)
	wcss = sum(cluster_assment[:,1])
	print("wcss is ", wcss)
	plot_cluster(data_mat, cluster_assment, centroid)
if __name__ == '__main__':
	data_mat,c = make_moons(n_samples=1000,noise=0.1)
	centroid, cluster_assment = kMeans(data_mat, 2)
	wcss = sum(cluster_assment[:,1])
	print("wcss is ", wcss)
	plot_cluster(data_mat, cluster_assment, centroid)

输出结果：

none

wcss is  265.7778014831852

很显然，分类效果很差。

代码

这里的代码源于k-means源码（非本网站开发团队创作）。

用到的数据集为

python
# k_means.py
# -*- coding: utf-8 -*-
# @Author: huzhu
# @Date:   2019-10-29 09:31:43
# @Last Modified by:   huzhu
# @Last Modified time: 2019-11-14 21:14:20

import codecs
from numpy import *
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.datasets import make_moons
import matplotlib.animation as animation
from sklearn.cluster import KMeans

# 加载数据的函数
def load_data(path):
	"""
	@brief      Loads a data.
	@param      path  The path
	@return     data set
	"""
	data_set = list()
	with codecs.open(path) as f:
		for line in f.readlines():
			data = line.strip().split("\t")
			flt_data = list(map(float, data))
			data_set.append(flt_data)
	return data_set

# 计算两个向量的欧几里得距离
def dist_eucl(vecA, vecB):
	"""
	@brief      the similarity function
	@param      vecA  The vector a
	@param      vecB  The vector b
	@return     the euclidean distance
	"""
	return sqrt(sum(power(vecA - vecB, 2)))

# 随机生成初始的质心
def rand_cent(data_mat, k):
	"""
	@brief      select random centroid
	@param      data_mat  The data matrix
	@param      k
	@return     centroids
	"""
	n = shape(data_mat)[1]
	centroids = mat(zeros((k, n)))
	for j in range(n):
		minJ = min(data_mat[:,j])
		rangeJ = float(max(data_mat[:,j]) - minJ)
		centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))
	return centroids

# K-Means算法的实现
def kMeans(data_mat, k, dist = "dist_eucl", create_cent = "rand_cent"):
	"""
	@brief      kMeans algorithm
	@param      data_mat     The data matrix
	@param      k            num of cluster
	@param      dist         The distance funtion
	@param      create_cent  The create centroid function
	@return     the cluster
	"""
	m = shape(data_mat)[0]
	# 初始化点的簇
	cluster_assment = mat(zeros((m, 2)))  # 类别，距离
	# 随机初始化聚类初始点
	centroid = eval(create_cent)(data_mat, k)
	cluster_changed = True
	# 遍历每个点
	while cluster_changed:
		cluster_changed = False
		for i in range(m):
			min_index = -1
			min_dist = inf
			for j in range(k):
				distance = eval(dist)(data_mat[i, :], centroid[j, :])
				if distance < min_dist:
					min_dist = distance
					min_index = j
			if cluster_assment[i, 0] != min_index:
				cluster_changed = True
				cluster_assment[i, :] = min_index, min_dist**2
		# 计算簇中所有点的均值并重新将均值作为质心
		for j in range(k):
			per_data_set = data_mat[nonzero(cluster_assment[:,0].A == j)[0]]
			centroid[j, :] = mean(per_data_set, axis = 0)
	return centroid, cluster_assment

# 绘制聚类结果
def plot_cluster(data_mat, cluster_assment, centroid):
	"""
	@brief      plot cluster and centroid
	@param      data_mat        The data matrix
	@param      cluster_assment  The cluste assment
	@param      centroid        The centroid
	@return
	"""
	plt.figure(figsize=(15, 6), dpi=80)
	plt.subplot(121)
	plt.plot(data_mat[:, 0], data_mat[:, 1], 'o')
	plt.title("source data", fontsize=15)
	plt.subplot(122)
	k = shape(centroid)[0]
	colors = [plt.cm.get_cmap("Spectral")(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("K-Means Cluster, k ="+str(k), fontsize=15)
	plt.show()

# 绘制非凸优化函数图像
def plot_noncov():
	"""
	@brief      绘制非凸优化函数图像
	@return     { description_of_the_return_value }
	"""
	fig = plt.figure()
	ax = fig.sub_plot(projection='3d') # 这里对原代码做了改动，就不会报错了
	x1 = linspace(-2,2,100)
	x2 = linspace(-2,2,100)
	mu1 = array([1,1])
	mu2 = array([-1,-1])
	Z = zeros((len(x1), len(x2)))
	for i in range(len(x1)):
		for j in range(len(x2)):
			itemx = x1[i]
			itemy = x2[j]
			z1 = dist_eucl(mu1, [itemx, itemy])
			z2 = dist_eucl(mu2, [itemx, itemy])
			Z[i,j] = min(z1,z2)
	X1, X2 = meshgrid(x1, x2)
	ax.plot_surface(X1, X2, Z, rstride=1, cstride=1, cmap='rainbow')
	plt.show()

# 测试不同的k值对聚类结果的影响
def test_diff_k():
	plt.figure(figsize=(15, 4), dpi=80)
	data_mat = mat(load_data("data/testSet2_kmeans.txt"))
	centroid, cluster_assment = kMeans(data_mat, 2)
	plt.subplot(131)
	k = shape(centroid)[0]
	colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("K-Means Cluster, k = 2", fontsize=15)

	centroid, cluster_assment = kMeans(data_mat, 3)
	plt.subplot(132)
	k = shape(centroid)[0]
	colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("K-Means Cluster, k = 3", fontsize=15)

	centroid, cluster_assment = kMeans(data_mat, 4)
	plt.subplot(133)
	k = shape(centroid)[0]
	colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("K-Means Cluster, k = 4", fontsize=15)
	plt.show()

# 绘制并保存GIF图表以展示聚类过程
def plot_fig(data_mat):
	"""
	@brief      绘制并保存gif图
	@param      data_mat  The data matrix
	@param      k         { parameter_description }
	@return     { description_of_the_return_value }
	"""
	centroid_list = list()
	cluster_assment_list = list()
	def sub_kMeans(data_mat, k, dist = "dist_eucl", create_cent = "rand_cent"):
		m = shape(data_mat)[0]
		# 初始化点的簇
		cluster_assment = mat(zeros((m, 2)))  # 类别，距离
		# 随机初始化聚类初始点
		centroid = eval(create_cent)(data_mat, k)
		cluster_changed = True
		# 遍历每个点
		while cluster_changed:
			centroid_list.append(array(centroid))
			cluster_assment_list.append(array(cluster_assment))
			cluster_changed = False
			for i in range(m):
				min_index = -1
				min_dist = inf
				for j in range(k):
					distance = eval(dist)(data_mat[i, :], centroid[j, :])
					if distance < min_dist:
						min_dist = distance
						min_index = j
				if cluster_assment[i, 0] != min_index:
					cluster_changed = True
					cluster_assment[i, :] = min_index, min_dist**2
			# 计算簇中所有点的均值并重新将均值作为质心
			for j in range(k):
				per_data_set = data_mat[nonzero(cluster_assment[:,0].A == j)[0]]
				centroid[j, :] = mean(per_data_set, axis = 0)
		return centroid_list,cluster_assment_list

	centroid_list,cluster_assment_list = sub_kMeans(data_mat,4)

	fig, ax = plt.subplots()
	plt.scatter(data_mat[:, 0].flatten().A[0], data_mat[:, 1].flatten().A[0])
	plt.title("K-Means Cluster Process", fontsize=15)
	def update(i):
		try:
			ax.lines.pop()
		except Exception:
			pass
		centroid = matrix(centroid_list[i])
		cluster_assment = matrix(cluster_assment_list[i])
		k = shape(centroid)[0]
		colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
		for i, col in zip(range(k), colors):
			per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
			line, = plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),markeredgecolor='k', markersize=10)
		line, = plt.plot(centroid[:,0], centroid[:,1], '*', color = 'k', markersize=18)
		return line,

	anim = animation.FuncAnimation(fig, update, frames=len(centroid_list),interval=1000, repeat_delay=1000)
	plt.show()
	anim.save('test_animation.gif',writer='pillow')

# 使用sklearn库中的KMeans进行聚类分析
def kmeans_lib():
	data_mat = mat(load_data("testSet2_kmeans.txt"))
	estimator = KMeans(n_clusters=3)#构造聚类器
	estimator.fit(data_mat)#聚类
	label_pred = estimator.labels_ #获取聚类标签
	print(label_pred)
	centroids = estimator.cluster_centers_ #获取聚类中心
	inertia = estimator.inertia_ # 获取聚类准则的总和
	plot_cluster(data_mat, mat(label_pred), centroids)
	print(centroids)
	print(inertia)
# k_means.py
# -*- coding: utf-8 -*-
# @Author: huzhu
# @Date:   2019-10-29 09:31:43
# @Last Modified by:   huzhu
# @Last Modified time: 2019-11-14 21:14:20

import codecs
from numpy import *
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.datasets import make_moons
import matplotlib.animation as animation
from sklearn.cluster import KMeans

# 加载数据的函数
def load_data(path):
	"""
	@brief      Loads a data.
	@param      path  The path
	@return     data set
	"""
	data_set = list()
	with codecs.open(path) as f:
		for line in f.readlines():
			data = line.strip().split("\t")
			flt_data = list(map(float, data))
			data_set.append(flt_data)
	return data_set

# 计算两个向量的欧几里得距离
def dist_eucl(vecA, vecB):
	"""
	@brief      the similarity function
	@param      vecA  The vector a
	@param      vecB  The vector b
	@return     the euclidean distance
	"""
	return sqrt(sum(power(vecA - vecB, 2)))

# 随机生成初始的质心
def rand_cent(data_mat, k):
	"""
	@brief      select random centroid
	@param      data_mat  The data matrix
	@param      k
	@return     centroids
	"""
	n = shape(data_mat)[1]
	centroids = mat(zeros((k, n)))
	for j in range(n):
		minJ = min(data_mat[:,j])
		rangeJ = float(max(data_mat[:,j]) - minJ)
		centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))
	return centroids

# K-Means算法的实现
def kMeans(data_mat, k, dist = "dist_eucl", create_cent = "rand_cent"):
	"""
	@brief      kMeans algorithm
	@param      data_mat     The data matrix
	@param      k            num of cluster
	@param      dist         The distance funtion
	@param      create_cent  The create centroid function
	@return     the cluster
	"""
	m = shape(data_mat)[0]
	# 初始化点的簇
	cluster_assment = mat(zeros((m, 2)))  # 类别，距离
	# 随机初始化聚类初始点
	centroid = eval(create_cent)(data_mat, k)
	cluster_changed = True
	# 遍历每个点
	while cluster_changed:
		cluster_changed = False
		for i in range(m):
			min_index = -1
			min_dist = inf
			for j in range(k):
				distance = eval(dist)(data_mat[i, :], centroid[j, :])
				if distance < min_dist:
					min_dist = distance
					min_index = j
			if cluster_assment[i, 0] != min_index:
				cluster_changed = True
				cluster_assment[i, :] = min_index, min_dist**2
		# 计算簇中所有点的均值并重新将均值作为质心
		for j in range(k):
			per_data_set = data_mat[nonzero(cluster_assment[:,0].A == j)[0]]
			centroid[j, :] = mean(per_data_set, axis = 0)
	return centroid, cluster_assment

# 绘制聚类结果
def plot_cluster(data_mat, cluster_assment, centroid):
	"""
	@brief      plot cluster and centroid
	@param      data_mat        The data matrix
	@param      cluster_assment  The cluste assment
	@param      centroid        The centroid
	@return
	"""
	plt.figure(figsize=(15, 6), dpi=80)
	plt.subplot(121)
	plt.plot(data_mat[:, 0], data_mat[:, 1], 'o')
	plt.title("source data", fontsize=15)
	plt.subplot(122)
	k = shape(centroid)[0]
	colors = [plt.cm.get_cmap("Spectral")(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("K-Means Cluster, k ="+str(k), fontsize=15)
	plt.show()

# 绘制非凸优化函数图像
def plot_noncov():
	"""
	@brief      绘制非凸优化函数图像
	@return     { description_of_the_return_value }
	"""
	fig = plt.figure()
	ax = fig.sub_plot(projection='3d') # 这里对原代码做了改动，就不会报错了
	x1 = linspace(-2,2,100)
	x2 = linspace(-2,2,100)
	mu1 = array([1,1])
	mu2 = array([-1,-1])
	Z = zeros((len(x1), len(x2)))
	for i in range(len(x1)):
		for j in range(len(x2)):
			itemx = x1[i]
			itemy = x2[j]
			z1 = dist_eucl(mu1, [itemx, itemy])
			z2 = dist_eucl(mu2, [itemx, itemy])
			Z[i,j] = min(z1,z2)
	X1, X2 = meshgrid(x1, x2)
	ax.plot_surface(X1, X2, Z, rstride=1, cstride=1, cmap='rainbow')
	plt.show()

# 测试不同的k值对聚类结果的影响
def test_diff_k():
	plt.figure(figsize=(15, 4), dpi=80)
	data_mat = mat(load_data("data/testSet2_kmeans.txt"))
	centroid, cluster_assment = kMeans(data_mat, 2)
	plt.subplot(131)
	k = shape(centroid)[0]
	colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("K-Means Cluster, k = 2", fontsize=15)

	centroid, cluster_assment = kMeans(data_mat, 3)
	plt.subplot(132)
	k = shape(centroid)[0]
	colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("K-Means Cluster, k = 3", fontsize=15)

	centroid, cluster_assment = kMeans(data_mat, 4)
	plt.subplot(133)
	k = shape(centroid)[0]
	colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("K-Means Cluster, k = 4", fontsize=15)
	plt.show()

# 绘制并保存GIF图表以展示聚类过程
def plot_fig(data_mat):
	"""
	@brief      绘制并保存gif图
	@param      data_mat  The data matrix
	@param      k         { parameter_description }
	@return     { description_of_the_return_value }
	"""
	centroid_list = list()
	cluster_assment_list = list()
	def sub_kMeans(data_mat, k, dist = "dist_eucl", create_cent = "rand_cent"):
		m = shape(data_mat)[0]
		# 初始化点的簇
		cluster_assment = mat(zeros((m, 2)))  # 类别，距离
		# 随机初始化聚类初始点
		centroid = eval(create_cent)(data_mat, k)
		cluster_changed = True
		# 遍历每个点
		while cluster_changed:
			centroid_list.append(array(centroid))
			cluster_assment_list.append(array(cluster_assment))
			cluster_changed = False
			for i in range(m):
				min_index = -1
				min_dist = inf
				for j in range(k):
					distance = eval(dist)(data_mat[i, :], centroid[j, :])
					if distance < min_dist:
						min_dist = distance
						min_index = j
				if cluster_assment[i, 0] != min_index:
					cluster_changed = True
					cluster_assment[i, :] = min_index, min_dist**2
			# 计算簇中所有点的均值并重新将均值作为质心
			for j in range(k):
				per_data_set = data_mat[nonzero(cluster_assment[:,0].A == j)[0]]
				centroid[j, :] = mean(per_data_set, axis = 0)
		return centroid_list,cluster_assment_list

	centroid_list,cluster_assment_list = sub_kMeans(data_mat,4)

	fig, ax = plt.subplots()
	plt.scatter(data_mat[:, 0].flatten().A[0], data_mat[:, 1].flatten().A[0])
	plt.title("K-Means Cluster Process", fontsize=15)
	def update(i):
		try:
			ax.lines.pop()
		except Exception:
			pass
		centroid = matrix(centroid_list[i])
		cluster_assment = matrix(cluster_assment_list[i])
		k = shape(centroid)[0]
		colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
		for i, col in zip(range(k), colors):
			per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
			line, = plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),markeredgecolor='k', markersize=10)
		line, = plt.plot(centroid[:,0], centroid[:,1], '*', color = 'k', markersize=18)
		return line,

	anim = animation.FuncAnimation(fig, update, frames=len(centroid_list),interval=1000, repeat_delay=1000)
	plt.show()
	anim.save('test_animation.gif',writer='pillow')

# 使用sklearn库中的KMeans进行聚类分析
def kmeans_lib():
	data_mat = mat(load_data("testSet2_kmeans.txt"))
	estimator = KMeans(n_clusters=3)#构造聚类器
	estimator.fit(data_mat)#聚类
	label_pred = estimator.labels_ #获取聚类标签
	print(label_pred)
	centroids = estimator.cluster_centers_ #获取聚类中心
	inertia = estimator.inertia_ # 获取聚类准则的总和
	plot_cluster(data_mat, mat(label_pred), centroids)
	print(centroids)
	print(inertia)

以上是所有定义函数的代码。在主函数部分，我们通过调用不同的函数，给数据进行聚类分析并验证我们的假设。

当然，在实际比赛中，我们不需要自己实现一个k-means算法，因为你可以直接调用第三方库sklearn。下面我们依然使用数据集testSet_kmeans.txt对其进行k-means聚类。

python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 读取数据集
X = np.loadtxt('testSet_kmeans.txt')

# 使用肘部法则确定最佳的k值
wcss = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

plt.figure(figsize=(10, 6))
plt.plot(range(1, 11), wcss, marker='o')
plt.title('Elbow Method')
plt.xlabel('Number of clusters (k)')
plt.ylabel('WCSS')
plt.xticks(range(1, 11))
plt.grid(True)
plt.show()

# 根据肘部图选择k值
# 这里需要你观察肘部图形后自行决定k值
k = 4  # 这里观察到的最佳k值是4
kmeans = KMeans(n_clusters=k, random_state=0)
y_kmeans = kmeans.fit_predict(X)

# 计算轮廓系数
silhouette_avg = silhouette_score(X, y_kmeans)
print(f"对于k={k}, 轮廓系数为：{silhouette_avg}")

# 可视化聚类结果
plt.figure(figsize=(10, 6))
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5)

plt.title(f'K-Means Clustering with K={k}')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 读取数据集
X = np.loadtxt('testSet_kmeans.txt')

# 使用肘部法则确定最佳的k值
wcss = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

plt.figure(figsize=(10, 6))
plt.plot(range(1, 11), wcss, marker='o')
plt.title('Elbow Method')
plt.xlabel('Number of clusters (k)')
plt.ylabel('WCSS')
plt.xticks(range(1, 11))
plt.grid(True)
plt.show()

# 根据肘部图选择k值
# 这里需要你观察肘部图形后自行决定k值
k = 4  # 这里观察到的最佳k值是4
kmeans = KMeans(n_clusters=k, random_state=0)
y_kmeans = kmeans.fit_predict(X)

# 计算轮廓系数
silhouette_avg = silhouette_score(X, y_kmeans)
print(f"对于k={k}, 轮廓系数为：{silhouette_avg}")

# 可视化聚类结果
plt.figure(figsize=(10, 6))
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5)

plt.title(f'K-Means Clustering with K={k}')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.show()

输出结果：

none

对于k=4, 轮廓系数为：0.6558213071798628

优缺点

优点：

简单易懂：k-means算法思想简单，容易实现，对初学者来说较为友好。
计算效率高：k-means算法在数据点数量较多时，相对于其他聚类算法（如层次聚类）具有更高的计算效率。
适合大规模数据集：由于其计算效率高，k-means可用于大规模数据集的聚类分析。
可以并行化：k-means算法的计算可以很容易地并行化，进一步提升计算速度。

缺点：

需要指定k值：算法开始前需要指定群集的数量k，而在实际应用中k的最佳值通常是未知的，需要通过一些方法如肘部法则等来确定。
对初始质心敏感：算法的结果可能对初始质心的选择非常敏感，不同的初始化可能导致不同的结果。
对异常值敏感：k-means对噪声和异常值比较敏感，异常值可能会对质心计算造成较大影响。
只能处理球形簇：k-means假设群集呈现球形分布，当数据集中的群集形状不规则或大小差异很大时，其性能会下降。
假设群集内方差相等：k-means隐含地假设所有的群集具有相同的方差，这在实际数据中可能不成立。
难以聚类大小、密度不同的簇：当数据集中的群集大小和密度不一致时，k-means可能无法很好地识别这些群集。

K-Means算法

运用 划分式聚类 的往年获奖论文

定义与详解

原理

模型假设和数据预处理

确定簇数k

评价指标

实战分析

代码

优缺点

运用划分式聚类的往年获奖论文