K-Means++算法

发布时间：2023年12月27日

更新时间：2024年1月24日

运用划分式聚类的往年获奖论文

官方评析:MCM/ICM:2023:2311717

官方评析:MCM/ICM:2023:2300348

官方评析:MCM/ICM:2023:2318036

官方评析:MCM/ICM:2023:2314151

官方评析:MCM/ICM:2023:2307946

官方评析:MCM/ICM:2023:2309397

官方评析:MCM/ICM:2023:2301192

官方评析:MCM/ICM:2023:2315018

官方评析:MCM/ICM:2023:2320131

官方评析:MCM/ICM:2023:2314817

官方评析:MCM/ICM:2023:2314354

白话文

你现在已经了解了k-means算法，那么让我们来聊聊k-means++算法，它其实是对k-means的一个改进，特别在初始化聚类中心这个环节上。

你有一堆彩色的气球散落在地板上，你想要将这些气球分成几个小组，每个小组的颜色尽可能相似。按照k-means算法，你可能会随便挑几个气球作为每组的代表（称为“质心”），然后根据这些代表将所有气球归类，接着不断调整代表气球的位置，直到找到最好的归类方法。

但是，如果一开始挑的代表气球不够好，你可能会发现自己不得不调整很多次才能得到满意的分组。这时候k-means++就派上用场了，它提供了一种更聪明的方式来选择开始时的代表气球。

k-means++的核心思想是这样的：首先，随机选择一个气球作为第一个质心，之后每次选择下一个质心时，都要考虑到已有质心的位置。具体来说，每个还没有被选为质心的气球被选中的概率与它到最近一个已选择质心距离的平方成正比。这就意味着那些离已有质心较远的气球被选为下一个质心的机率会更大。

举个例子，如果你第一个随机挑了个红色气球作为质心，下一个质心很可能不会是另一个红色气球，因为红色气球彼此之间距离较近。相反，可能会是一个绿色或蓝色的气球，因为它们距离红色气球更远。这样，就能确保初始的质心彼此之间有一定的距离，从而有助于更快地找到一个好的分组方案。

在选择了所有的质心之后，k-means++算法就变回了普通的k-means算法，不断迭代调整质心位置和气球的归类，直到找到最佳分组。

简而言之，k-means++的巧妙之处在于它选择初始质心的策略，这个策略通过考虑到距离因素，使得算法的最终结果更加稳定和准确，同时通常也能加快收敛速度。

定义与详解

K-Means++算法是K-Means聚类算法的一个改进版本，它主要优化了初始质心的选择方法。K-Means算法在聚类时对初始质心的选择非常敏感，如果初始质心选择不当，可能会导致聚类结果不佳或者需要更多的迭代次数才能收敛。K-Means++算法通过一种特定的概率方法来选择初始质心，以期望得到更好的聚类效果。

K-Means++算法的基本原理可以分为以下几个步骤：

初始化：从输入的数据点中随机选择一个点作为第一个质心 $c_1$ 。
质心选择：对于数据集中的每一个点 $x$ ，计算它与已有质心中最近质心的距离 $D(x)$ 。然后，以概率 $\frac{D(x)^2}{\sum_{x'} D(x')^2}$ 选择新的质心，其中 $x'$ 遍历所有的数据点。
重复选择：重复步骤2，直到选择出所有的K个质心。
聚类分配：就像传统的K-Means算法一样，为每个数据点分配到最近的质心，形成K个簇。
更新质心：计算每个簇的平均点，作为新的质心。
迭代优化：重复步骤4和5，直到质心不再变化或者达到了某个预设的迭代次数，算法结束。

K-Means++算法的主要优势在于初始质心的选择更加合理，这通常可以导致聚类过程更快收敛，以及最终的聚类效果更加稳定和准确。

在K-Means++算法中，选择新的质心的概率公式如下：

P(c_i = x) = \frac{D(x)^2}{\sum_{x'} D(x')^2} .

其中， $c_i$ 是新的质心， $x$ 是数据点， $D(x)$ 是点 $x$ 到最近质心的距离，分母是所有数据点到其最近质心距离的平方和。

总的来说，K-Means++算法通过改进初始质心的选择，使得K-Means聚类的效果更好，更快收敛，减少了对初始质心随机选择的依赖。

评价指标

见评价指标。

代码

源代码链接和数据文件在K-Means算法的[代码]部分中。

python
import codecs
from numpy import *
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

def load_data(path):
	"""
	@brief      Loads a data.
	@param      path  The path
	@return     data set
	"""
	data_set = list()
	with codecs.open(path) as f:
		for line in f.readlines():
			data = line.strip().split("\t")
			flt_data = list(map(float, data))
			data_set.append(flt_data)
	return data_set

def dist_eucl(vecA, vecB):
	"""
	@brief      the similarity function
	@param      vecA  The vector a
	@param      vecB  The vector b
	@return     the euclidean distance
	"""
	return sqrt(sum(power(vecA - vecB, 2)))

def get_closest_dist(point, centroid):
	"""
	@brief      Gets the closest distance.
	@param      point     The point
	@param      centroid  The centroid
	@return     The closest distance.
	"""
	# 计算与已有质心最近的距离
	min_dist = inf
	for j in range(len(centroid)):
		distance = dist_eucl(point, centroid[j])
		if distance < min_dist:
			min_dist = distance
	return min_dist

def kpp_cent(data_mat, k):
	"""
	@brief      kmeans++ init centor
	@param      data_mat  The data matrix
	@param      k   num of cluster
	@return     init centroid
	"""
	data_set = data_mat.getA()
	# 随机初始化第一个中心点
	centroid = list()
	centroid.append(data_set[random.randint(0,len(data_set))])
	d = [0 for i in range(len(data_set))]
	for _ in range(1, k):
		total = 0.0
		for i in range(len(data_set)):
			d[i] = get_closest_dist(data_set[i], centroid)
			total += d[i]
		total *= random.rand()
		# 选取下一个中心点
		for j in range(len(d)):
			total -= d[j]
			if total > 0:
				continue
			centroid.append(data_set[j])
			break
	return mat(centroid)

def kpp_Means(data_mat, k, dist = "dist_eucl", create_cent = "kpp_cent"):
	"""
	@brief      kpp means algorithm
	@param      data_mat     The data matrix
	@param      k            num of cluster
	@param      dist         The distance funtion
	@param      create_cent  The create centroid function
	@return     the cluster
	"""
	m = shape(data_mat)[0]
	# 初始化点的簇
	cluste_assment = mat(zeros((m, 2)))  # 类别，距离
	# 随机初始化聚类初始点
	centroid = eval(create_cent)(data_mat, k)
	cluster_changed = True
	# 遍历每个点
	while cluster_changed:
		cluster_changed = False
		for i in range(m):
			min_index = -1
			min_dist = inf
			for j in range(k):
				distance = eval(dist)(data_mat[i, :], centroid[j, :])
				if distance < min_dist:
					min_dist = distance
					min_index = j
			if cluste_assment[i, 0] != min_index:
				cluster_changed = True
				cluste_assment[i, :] = min_index, min_dist**2
		# 计算簇中所有点的均值并重新将均值作为质心
		for j in range(k):
			per_data_set = data_mat[nonzero(cluste_assment[:,0].A == j)[0]]
			centroid[j, :] = mean(per_data_set, axis = 0)
	return centroid, cluste_assment

def plot_cluster(data_mat, cluste_assment, centroid):
	"""
	@brief      plot cluster and centroid
	@param      data_mat        The data matrix
	@param      cluste_assment  The cluste assment
	@param      centroid        The centroid
	@return
	"""
	plt.figure(figsize=(15, 6), dpi=80)
	plt.subplot(121)
	plt.plot(data_mat[:, 0], data_mat[:, 1], 'o')
	plt.title("source data", fontsize=15)
	plt.subplot(122)
	k = shape(centroid)[0]
	colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluste_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("k-Means++ Cluster, k = 3", fontsize=15)
	plt.show()


if __name__ == '__main__':
	data_mat = mat(load_data("testSet2_kmeans.txt"))
	centroid, cluster_assment = kpp_Means(data_mat, 3)
	wcss = sum(cluster_assment[:,1])
	print("wcss is ", wcss)
	plot_cluster(data_mat, cluster_assment, centroid)
import codecs
from numpy import *
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

def load_data(path):
	"""
	@brief      Loads a data.
	@param      path  The path
	@return     data set
	"""
	data_set = list()
	with codecs.open(path) as f:
		for line in f.readlines():
			data = line.strip().split("\t")
			flt_data = list(map(float, data))
			data_set.append(flt_data)
	return data_set

def dist_eucl(vecA, vecB):
	"""
	@brief      the similarity function
	@param      vecA  The vector a
	@param      vecB  The vector b
	@return     the euclidean distance
	"""
	return sqrt(sum(power(vecA - vecB, 2)))

def get_closest_dist(point, centroid):
	"""
	@brief      Gets the closest distance.
	@param      point     The point
	@param      centroid  The centroid
	@return     The closest distance.
	"""
	# 计算与已有质心最近的距离
	min_dist = inf
	for j in range(len(centroid)):
		distance = dist_eucl(point, centroid[j])
		if distance < min_dist:
			min_dist = distance
	return min_dist

def kpp_cent(data_mat, k):
	"""
	@brief      kmeans++ init centor
	@param      data_mat  The data matrix
	@param      k   num of cluster
	@return     init centroid
	"""
	data_set = data_mat.getA()
	# 随机初始化第一个中心点
	centroid = list()
	centroid.append(data_set[random.randint(0,len(data_set))])
	d = [0 for i in range(len(data_set))]
	for _ in range(1, k):
		total = 0.0
		for i in range(len(data_set)):
			d[i] = get_closest_dist(data_set[i], centroid)
			total += d[i]
		total *= random.rand()
		# 选取下一个中心点
		for j in range(len(d)):
			total -= d[j]
			if total > 0:
				continue
			centroid.append(data_set[j])
			break
	return mat(centroid)

def kpp_Means(data_mat, k, dist = "dist_eucl", create_cent = "kpp_cent"):
	"""
	@brief      kpp means algorithm
	@param      data_mat     The data matrix
	@param      k            num of cluster
	@param      dist         The distance funtion
	@param      create_cent  The create centroid function
	@return     the cluster
	"""
	m = shape(data_mat)[0]
	# 初始化点的簇
	cluste_assment = mat(zeros((m, 2)))  # 类别，距离
	# 随机初始化聚类初始点
	centroid = eval(create_cent)(data_mat, k)
	cluster_changed = True
	# 遍历每个点
	while cluster_changed:
		cluster_changed = False
		for i in range(m):
			min_index = -1
			min_dist = inf
			for j in range(k):
				distance = eval(dist)(data_mat[i, :], centroid[j, :])
				if distance < min_dist:
					min_dist = distance
					min_index = j
			if cluste_assment[i, 0] != min_index:
				cluster_changed = True
				cluste_assment[i, :] = min_index, min_dist**2
		# 计算簇中所有点的均值并重新将均值作为质心
		for j in range(k):
			per_data_set = data_mat[nonzero(cluste_assment[:,0].A == j)[0]]
			centroid[j, :] = mean(per_data_set, axis = 0)
	return centroid, cluste_assment

def plot_cluster(data_mat, cluste_assment, centroid):
	"""
	@brief      plot cluster and centroid
	@param      data_mat        The data matrix
	@param      cluste_assment  The cluste assment
	@param      centroid        The centroid
	@return
	"""
	plt.figure(figsize=(15, 6), dpi=80)
	plt.subplot(121)
	plt.plot(data_mat[:, 0], data_mat[:, 1], 'o')
	plt.title("source data", fontsize=15)
	plt.subplot(122)
	k = shape(centroid)[0]
	colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluste_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("k-Means++ Cluster, k = 3", fontsize=15)
	plt.show()


if __name__ == '__main__':
	data_mat = mat(load_data("testSet2_kmeans.txt"))
	centroid, cluster_assment = kpp_Means(data_mat, 3)
	wcss = sum(cluster_assment[:,1])
	print("wcss is ", wcss)
	plot_cluster(data_mat, cluster_assment, centroid)

输出结果：

none

wcss is  291.8508858651727

简化代码

Python中机器学习库scikit-learn（简称sklearn）提供了包含K-means++初始化方法的K-means算法实现。在使用sklearn.cluster.KMeans时，可以通过将init参数设置为'k-means++'（这是默认设置）来使用K-means++初始化方法。我们依旧使用testSet2_kmeans.txt数据集。

python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

X = np.loadtxt('testSet2_kmeans.txt')

# 使用肘部法则确定最佳的k值
wcss = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

plt.figure(figsize=(10, 6))
plt.plot(range(1, 11), wcss, marker='o')
plt.title('Elbow Method')
plt.xlabel('Number of clusters (k)')
plt.ylabel('WCSS')
plt.xticks(range(1, 11))
plt.grid(True)
plt.show()

k = 3  # 假设我们要将数据聚为3类

# 使用scikit-learn的KMeans类
kmeans = KMeans(n_clusters=k, init='k-means++', n_init=10, max_iter=300, random_state=42)
kmeans.fit(X)

labels = kmeans.labels_
centroids = kmeans.cluster_centers_

# 计算轮廓系数
silhouette_avg = silhouette_score(X, labels)
print(f"对于k={k}, 轮廓系数为：{silhouette_avg}")

# 可视化聚类结果
plt.figure(figsize=(10, 6))
plt.scatter(X[:, 0], X[:, 1], c=labels, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5)
plt.show()
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

X = np.loadtxt('testSet2_kmeans.txt')

# 使用肘部法则确定最佳的k值
wcss = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

plt.figure(figsize=(10, 6))
plt.plot(range(1, 11), wcss, marker='o')
plt.title('Elbow Method')
plt.xlabel('Number of clusters (k)')
plt.ylabel('WCSS')
plt.xticks(range(1, 11))
plt.grid(True)
plt.show()

k = 3  # 假设我们要将数据聚为3类

# 使用scikit-learn的KMeans类
kmeans = KMeans(n_clusters=k, init='k-means++', n_init=10, max_iter=300, random_state=42)
kmeans.fit(X)

labels = kmeans.labels_
centroids = kmeans.cluster_centers_

# 计算轮廓系数
silhouette_avg = silhouette_score(X, labels)
print(f"对于k={k}, 轮廓系数为：{silhouette_avg}")

# 可视化聚类结果
plt.figure(figsize=(10, 6))
plt.scatter(X[:, 0], X[:, 1], c=labels, s=50, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5)
plt.show()