Bi-KMeans算法

发布时间：2023年12月27日

更新时间：2023年12月30日

运用划分式聚类的往年获奖论文

官方评析:MCM/ICM:2023:2311717

官方评析:MCM/ICM:2023:2300348

官方评析:MCM/ICM:2023:2318036

官方评析:MCM/ICM:2023:2314151

官方评析:MCM/ICM:2023:2307946

官方评析:MCM/ICM:2023:2309397

官方评析:MCM/ICM:2023:2301192

官方评析:MCM/ICM:2023:2315018

官方评析:MCM/ICM:2023:2320131

官方评析:MCM/ICM:2023:2314817

官方评析:MCM/ICM:2023:2314354

白话文

bi-kmeans，也就是二分K均值聚类算法，是一种改进版的K均值聚类方法。这个算法的发明动机主要是为了解决传统K均值算法在处理大规模数据集时遇到的一些问题，比如说效率不高和容易陷入局部最优解。

在原始的K均值算法中，我们需要一开始就指定要分成几个类别，然后算法会随机选择几个点作为中心，接下来就是不断迭代，把数据点分到最近的中心点所代表的类别中，然后再计算新的中心点，如此重复，直到满足停止条件。这个过程在数据量很大或者分布复杂的时候，计算量会非常庞大，而且如果一开始选的中心点不太好，最后得到的结果也可能不是最优的。

bi-kmeans算法就是为了改善这些不足。它的基本思路是，先不急着一次性分好所有的类别，而是先从一个类别开始，把所有的数据点都看成一个大类。然后，这个大类会被一分为二，选择分开后总的误差最小的那种分法。这样一分为二的过程就重复进行，每次都选择当前所有类别中可以进一步分裂并且分裂后能最多减少误差的那个类别进行分裂，直到分出了我们预定的类别数。

这种分而治之的策略让bi-kmeans在很多实际应用场景中都表现得比原始的K均值算法更有效。比如说在处理大数据集的时候，bi-kmeans因为是逐步细分，所以每次处理的数据量相对较小，这就大大提高了算法的运行效率。同时，因为它是通过不断细分来逐步优化类别的，这样也降低了陷入局部最优解的风险。

定义与详解

Bi-Kmeans算法是一种改进的K-means聚类算法。K-means算法是一种经典的聚类分析方法，它的目标是将n个数据点划分为k个簇，使得每个数据点都属于离它最近的簇中心（质心），以此来最小化每个点到簇中心的距离之和。然而，K-means算法需要预先指定簇的个数k，并且对初始簇中心的选择很敏感，容易陷入局部最优解。

Bi-Kmeans（二分K-means）算法则是在K-means的基础上，采用了一种自上而下的分裂策略。它不需要一开始就指定簇的数量，而是从一个大簇开始，逐渐分裂成多个小簇。

Bi-Kmeans算法的基本原理和步骤如下：

初始化：首先选择所有数据点作为一个初始簇。
分裂：对当前的每一个簇，尝试将其分成两个子簇。这里使用K-means算法，即k=2，来实现。对于每个簇，执行以下操作：
- 从簇中随机选择两个点作为初始的两个质心。
- 将簇中的每个点指派给最近的质心，形成两个子簇。
- 重新计算每个子簇的质心。
- 重复上述分配和计算质心的步骤，直到满足一定的停止条件，比如簇内数据点的分配不再改变或者达到最大迭代次数。
评估分裂：对于每次分裂，计算分裂前后的成本函数（WCSS），选择使得成本函数降低最多的那次分裂。成本函数定义为：
$WCSS = \sum_{i=1}^{k} \sum_{x \in C_i} ||x - \mu_i||^2 .$
其中， $k$ 表示簇的数量， $C_i$ 是第 $i$ 个簇中的点的集合， $\mu_i$ 是第 $i$ 个簇的质心， $x$ 是簇中的数据点。
重复分裂：重复步骤2和3，直到达到预设的簇的数量或者进一步分裂不会显著降低成本函数。

通过这种自上而下的策略，Bi-Kmeans算法能够逐步细化聚类的结果，并在一定程度上克服了K-means算法对初始质心选择敏感的问题。同时，由于每次都是对单个簇进行操作，算法的计算量通常小于对所有数据点重新聚类的K-means算法，尤其是在处理大规模数据集时。

评价指标

见评价指标。

代码

python
import codecs
from numpy import *
import matplotlib.pyplot as plt

def load_data(path):
	"""
	@brief      Loads a data.
	@param      path  The path
	@return     data set
	"""
	data_set = list()
	with codecs.open(path) as f:
		for line in f.readlines():
			data = line.strip().split("\t")
			flt_data = list(map(float, data))
			data_set.append(flt_data)
	return data_set


def rand_cent(data_mat, k):
	"""
	@brief      select random centroid
	@param      data_mat  The data matrix
	@param      k
	@return     centroids
	"""
	n = shape(data_mat)[1]
	centroids = mat(zeros((k, n)))
	if not data_mat.any():
		return centroids
	for j in range(n):
		minJ = min(data_mat[:,j])
		rangeJ = float(max(data_mat[:,j]) - minJ)
		centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))
	return centroids


def dist_eucl(vecA, vecB):
	"""
	@brief      the similarity function
	@param      vecA  The vector a
	@param      vecB  The vector b
	@return     the euclidean distance
	"""
	return sqrt(sum(power(vecA - vecB, 2)))

def k_Means(data_mat, k, dist = "dist_eucl", create_cent = "rand_cent"):
	"""
	@brief      kMeans algorithm
	@param      data_mat     The data matrix
	@param      k            num of cluster
	@param      dist         The distance funtion
	@param      create_cent  The create centroid function
	@return     the cluster
	"""
	m = shape(data_mat)[0]
	# 初始化点的簇
	cluster_assment = mat(zeros((m, 2)))  # 类别，距离
	# 随机初始化聚类初始点
	centroid = eval(create_cent)(data_mat, k)
	cluster_changed = True
	# 遍历每个点
	while cluster_changed:
		cluster_changed = False
		for i in range(m):
			min_index = -1
			min_dist = inf
			for j in range(k):
				distance = eval(dist)(data_mat[i, :], centroid[j, :])
				if distance < min_dist:
					min_dist = distance
					min_index = j
			if cluster_assment[i, 0] != min_index:
				cluster_changed = True
			cluster_assment[i, :] = min_index, min_dist**2
		# 计算簇中所有点的均值并重新将均值作为质心
		for j in range(k):
			per_data_set = data_mat[nonzero(cluster_assment[:,0].A == j)[0]]
			centroid[j, :] = mean(per_data_set, axis = 0)
	return centroid, cluster_assment

def bi_kMeans(data_mat, k, dist = "dist_eucl"):
	"""
	@brief      kMeans algorithm
	@param      data_mat     The data matrix
	@param      k            num of cluster
	@param      dist         The distance funtion
	@return     the cluster
	"""
	m = shape(data_mat)[0]

	# 初始化点的簇
	cluster_assment = mat(zeros((m, 2)))  # 类别，距离

	# 初始化聚类初始点
	centroid0 = mean(data_mat, axis = 0).tolist()[0]
	cent_list = [centroid0]
	print(cent_list)

	# 初始化wcss
	for j in range(m):
		cluster_assment[j, 1] = eval(dist)(mat(centroid0), data_mat[j, :]) ** 2

	while (len(cent_list) < k):
		lowest_sse = inf
		for i in range(len(cent_list)):
			# 尝试在每一类簇中进行k=2的kmeans划分
			ptsin_cur_cluster = data_mat[nonzero(cluster_assment[:, 0].A == i)[0],:]
			centroid_mat, split_cluster_ass = k_Means(ptsin_cur_cluster,k = 2)
			# 计算分类之后的SSE值
			sse_split = sum(split_cluster_ass[:, 1])
			sse_nonsplit = sum(cluster_assment[nonzero(cluster_assment[:, 0].A != i)[0], 1])
			print("sse_split, sse_nonsplit", sse_split, sse_nonsplit)
			# 记录最好的划分位置
			if sse_split + sse_nonsplit < lowest_sse:
				best_cent_tosplit = i
				best_new_cents = centroid_mat
				best_cluster_ass = split_cluster_ass.copy()
				lowest_sse = sse_split + sse_nonsplit
		print( 'the bestCentToSplit is: ', best_cent_tosplit)
		print ('the len of bestClustAss is: ', len(best_cluster_ass))
		# 更新簇的分配结果
		best_cluster_ass[nonzero(best_cluster_ass[:, 0].A == 1)[0], 0] = len(cent_list)
		best_cluster_ass[nonzero(best_cluster_ass[:, 0].A == 0)[0], 0] = best_cent_tosplit
		cent_list[best_cent_tosplit] = best_new_cents[0, :].tolist()[0]
		cent_list.append(best_new_cents[1, :].tolist()[0])
		cluster_assment[nonzero(cluster_assment[:, 0].A == best_cent_tosplit)[0],:] = best_cluster_ass
	return mat(cent_list), cluster_assment

def plot_cluster(data_mat, cluster_assment, centroid):
	"""
	@brief      plot cluster and centroid
	@param      data_mat        The data matrix
	@param      cluster_assment  The cluste assment
	@param      centroid        The centroid
	@return
	"""
	plt.figure(figsize=(15, 6), dpi=80)
	plt.subplot(121)
	plt.plot(data_mat[:, 0], data_mat[:, 1], 'o')
	plt.title("source data", fontsize=15)
	plt.subplot(122)
	k = shape(centroid)[0]
	colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("bi_KMeans Cluster, k = 3", fontsize=15)
	plt.show()

if __name__ == '__main__':
	data_mat = mat(load_data("testSet2_kmeans.txt"))
	centroid, cluster_assment = bi_kMeans(data_mat, 3)
	wcss = sum(cluster_assment[:,1])
	print("wcss is ", wcss)
	plot_cluster(data_mat, cluster_assment, centroid)
import codecs
from numpy import *
import matplotlib.pyplot as plt

def load_data(path):
	"""
	@brief      Loads a data.
	@param      path  The path
	@return     data set
	"""
	data_set = list()
	with codecs.open(path) as f:
		for line in f.readlines():
			data = line.strip().split("\t")
			flt_data = list(map(float, data))
			data_set.append(flt_data)
	return data_set


def rand_cent(data_mat, k):
	"""
	@brief      select random centroid
	@param      data_mat  The data matrix
	@param      k
	@return     centroids
	"""
	n = shape(data_mat)[1]
	centroids = mat(zeros((k, n)))
	if not data_mat.any():
		return centroids
	for j in range(n):
		minJ = min(data_mat[:,j])
		rangeJ = float(max(data_mat[:,j]) - minJ)
		centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))
	return centroids


def dist_eucl(vecA, vecB):
	"""
	@brief      the similarity function
	@param      vecA  The vector a
	@param      vecB  The vector b
	@return     the euclidean distance
	"""
	return sqrt(sum(power(vecA - vecB, 2)))

def k_Means(data_mat, k, dist = "dist_eucl", create_cent = "rand_cent"):
	"""
	@brief      kMeans algorithm
	@param      data_mat     The data matrix
	@param      k            num of cluster
	@param      dist         The distance funtion
	@param      create_cent  The create centroid function
	@return     the cluster
	"""
	m = shape(data_mat)[0]
	# 初始化点的簇
	cluster_assment = mat(zeros((m, 2)))  # 类别，距离
	# 随机初始化聚类初始点
	centroid = eval(create_cent)(data_mat, k)
	cluster_changed = True
	# 遍历每个点
	while cluster_changed:
		cluster_changed = False
		for i in range(m):
			min_index = -1
			min_dist = inf
			for j in range(k):
				distance = eval(dist)(data_mat[i, :], centroid[j, :])
				if distance < min_dist:
					min_dist = distance
					min_index = j
			if cluster_assment[i, 0] != min_index:
				cluster_changed = True
			cluster_assment[i, :] = min_index, min_dist**2
		# 计算簇中所有点的均值并重新将均值作为质心
		for j in range(k):
			per_data_set = data_mat[nonzero(cluster_assment[:,0].A == j)[0]]
			centroid[j, :] = mean(per_data_set, axis = 0)
	return centroid, cluster_assment

def bi_kMeans(data_mat, k, dist = "dist_eucl"):
	"""
	@brief      kMeans algorithm
	@param      data_mat     The data matrix
	@param      k            num of cluster
	@param      dist         The distance funtion
	@return     the cluster
	"""
	m = shape(data_mat)[0]

	# 初始化点的簇
	cluster_assment = mat(zeros((m, 2)))  # 类别，距离

	# 初始化聚类初始点
	centroid0 = mean(data_mat, axis = 0).tolist()[0]
	cent_list = [centroid0]
	print(cent_list)

	# 初始化wcss
	for j in range(m):
		cluster_assment[j, 1] = eval(dist)(mat(centroid0), data_mat[j, :]) ** 2

	while (len(cent_list) < k):
		lowest_sse = inf
		for i in range(len(cent_list)):
			# 尝试在每一类簇中进行k=2的kmeans划分
			ptsin_cur_cluster = data_mat[nonzero(cluster_assment[:, 0].A == i)[0],:]
			centroid_mat, split_cluster_ass = k_Means(ptsin_cur_cluster,k = 2)
			# 计算分类之后的SSE值
			sse_split = sum(split_cluster_ass[:, 1])
			sse_nonsplit = sum(cluster_assment[nonzero(cluster_assment[:, 0].A != i)[0], 1])
			print("sse_split, sse_nonsplit", sse_split, sse_nonsplit)
			# 记录最好的划分位置
			if sse_split + sse_nonsplit < lowest_sse:
				best_cent_tosplit = i
				best_new_cents = centroid_mat
				best_cluster_ass = split_cluster_ass.copy()
				lowest_sse = sse_split + sse_nonsplit
		print( 'the bestCentToSplit is: ', best_cent_tosplit)
		print ('the len of bestClustAss is: ', len(best_cluster_ass))
		# 更新簇的分配结果
		best_cluster_ass[nonzero(best_cluster_ass[:, 0].A == 1)[0], 0] = len(cent_list)
		best_cluster_ass[nonzero(best_cluster_ass[:, 0].A == 0)[0], 0] = best_cent_tosplit
		cent_list[best_cent_tosplit] = best_new_cents[0, :].tolist()[0]
		cent_list.append(best_new_cents[1, :].tolist()[0])
		cluster_assment[nonzero(cluster_assment[:, 0].A == best_cent_tosplit)[0],:] = best_cluster_ass
	return mat(cent_list), cluster_assment

def plot_cluster(data_mat, cluster_assment, centroid):
	"""
	@brief      plot cluster and centroid
	@param      data_mat        The data matrix
	@param      cluster_assment  The cluste assment
	@param      centroid        The centroid
	@return
	"""
	plt.figure(figsize=(15, 6), dpi=80)
	plt.subplot(121)
	plt.plot(data_mat[:, 0], data_mat[:, 1], 'o')
	plt.title("source data", fontsize=15)
	plt.subplot(122)
	k = shape(centroid)[0]
	colors = [plt.cm.Spectral(each) for each in linspace(0, 1, k)]
	for i, col in zip(range(k), colors):
	    per_data_set = data_mat[nonzero(cluster_assment[:,0].A == i)[0]]
	    plt.plot(per_data_set[:, 0], per_data_set[:, 1], 'o', markerfacecolor=tuple(col),
	             markeredgecolor='k', markersize=10)
	for i in range(k):
		plt.plot(centroid[:,0], centroid[:,1], '+', color = 'k', markersize=18)
	plt.title("bi_KMeans Cluster, k = 3", fontsize=15)
	plt.show()

if __name__ == '__main__':
	data_mat = mat(load_data("testSet2_kmeans.txt"))
	centroid, cluster_assment = bi_kMeans(data_mat, 3)
	wcss = sum(cluster_assment[:,1])
	print("wcss is ", wcss)
	plot_cluster(data_mat, cluster_assment, centroid)

输出结果：

none

[[-0.15772275000000002, 1.2253301166666664]]
sse_split, sse_nonsplit 584.8476068364444 0.0
the bestCentToSplit is:  0
the len of bestClustAss is:  60
sse_split, sse_nonsplit 40.51109841484639 441.31482269559115
sse_split, sse_nonsplit 51.845405378816565 143.53278414085307
the bestCentToSplit is:  1
the len of bestClustAss is:  34
wcss is  195.3781895196697

优缺点

优点：

效率提升：相较于传统的K-Means算法，Bi-Kmeans在每次迭代中只对一个簇进行分裂，因此减少了距离计算量，尤其在簇数较多的情况下，效率提升更为显著。
聚类质量：由于是自顶向下逐步分裂的过程，Bi-Kmeans在确定簇中心时往往能够更好地处理数据的局部结构，有助于提高聚类的质量。
可处理大数据集：由于其高效的特性，Bi-Kmeans适合处理大规模数据集。
减少初始依赖：与K-Means算法相比，Bi-Kmeans算法在一定程度上减少了对初始簇中心选择的依赖，因为它通过逐步分裂的方式来确定簇中心。

缺点：

局部最优问题：尽管Bi-Kmeans减少了对初始簇中心的依赖，但它仍然可能陷入局部最优解，尤其是在数据分布复杂或簇间界限不明显的情况下。
需要指定簇的数量：与K-Means算法一样，Bi-Kmeans也需要预先指定簇的数量，这可能在没有足够领域知识的情况下变得困难。
对噪声和异常值敏感：Bi-Kmeans继承了K-Means的一些缺点，比如对噪声和异常值敏感，因为它使用欧氏距离来度量点之间的相似性。
分裂标准的选择：二分策略取决于如何选择哪个簇进行分裂以及如何分裂，不当的选择可能导致聚类效果不佳。

Bi-Kmeans算法是对K-Means的一种改进，它在处理大规模数据集时效率较高，但仍然存在局部最优解和对异常值敏感等问题。

Bi-KMeans算法

运用 划分式聚类 的往年获奖论文

白话文

定义与详解

评价指标

代码

优缺点

运用划分式聚类的往年获奖论文