多元分类支持向量机

发布时间：2023年10月1日

更新时间：2023年12月25日

运用支持向量机的往年获奖论文

官方评析:MCM/ICM:2023:2311035

官方评析:MCM/ICM:2023:2311517

官方评析:MCM/ICM:2023:2312411

定义与详解

定义

多元分类支持向量机是用于处理多类别分类问题的方法。常见的二元分类支持向量机直接处理两类分类问题，但在实际应用中，我们经常需要处理多于两类的情况。对于这种问题，我们通常采用以下两种策略将多元分类问题转化为二元分类问题：

一对剩余（One-vs-the-rest）：每次取出一个类别，将其作为一类，剩余的所有类别作为另一类，这样就形成了一个二分类问题。比如有 $k$ 个类别，那么我们就有 $k$ 个二分类问题。最后的分类结果是，取 $k$ 个二分类器中，得分最高的那个类别作为最终的分类结果。
一对一（One-vs-one）：每次取出两个类别进行分类，直到所有的类别两两之间都已经分类。比如有 $k$ 个类别，那么我们就有 $k*(k-1)/2$ 个二分类问题。最后的分类结果是，根据所有二分类问题的投票结果，投票数最多的那个类别作为最终的分类结果。

这里的投票是指，**每一个二元分类器对于一个未知样本的预测结果都可以看作是对目标类别的一次投票。**每个分类器预测未知样本属于两个类别中的哪一个，预测结果即为对该类别的投票。在所有的二元分类器中，得票最多的类别则被判定为未知样本的类别。

举个例子，假设我们有3个类别A、B和C，根据一对一策略，我们构建了3个分类器：A vs B，B vs C，A vs C。对于一个未知样本：

如果分类器A vs B预测结果为A，
分类器B vs C预测结果为C，
分类器A vs C预测结果为A，

那么A得票2次，B和C各得票1次。在这个投票过程中，得票最多的A就是最终的类别结果。

这两种策略都有各自的优势和缺点。一对剩余的优势是只需要训练 $k$ 个分类器，但在类别不平衡的情况下，性能可能会变差。而一对一的优势是每个分类器只需要在部分训练集上进行训练，所以每个训练过程比较快，但需要训练更多的分类器。在实际应用中可以根据具体情况选择最适合的策略。

一对剩余

一对剩余(One-vs-the-rest, OvR)是一种常用的多类分类策略，主要步骤如下：

构造 $k$ 个分类器：对于 $k$ 个类别，我们构造出 $k$ 个支持向量机二元分类器。第 $i$ 个分类器的目标是区分第 $i$ 类和其他所有的类别。
训练分类器：对于第 $i$ 个分类器，我们将所有第 $i$ 类的样本标签设为1，其他类别的样本标签设为-1，然后进行训练。训练过程中，我们尝试找到最优的划分超平面，目标函数和二元分类SVM一样，如下所示：
$\min_{w,b,\xi} \frac{1}{2}||w||^2 + C\sum_{n}\xi_i$
满足以下约束：
$y_n(w \cdot x_n + b) \geq 1 - \xi_n, \ \xi_n \geq 0 ,\ n=1,2,\ldots,N.$
这里 $w$ 是超平面的法向量， $b$ 是超平面的截距， $N$ 是样本数量， $x_n$ 为第 $n$ 个样本， $y_n$ 为第 $n$ 个样本的标签， $C$ 为一个预先设定的惩罚系数，和二元分类SVM目标函数中的 $C$ 一样，用于处理不可分情况。
预测：对于一个未知的样本点 $x$ ，我们将其输入到这 $k$ 个分类器中，得到 $k$ 个预测结果。最后类别的预测选取得分最高的分类器对应的类别。

这种方法的好处在于训练的复杂度仅与类别数量线性相关，而且各分类器之间的训练可以并行进行，节省了训练时间。一方面，这种方法可能导致不平衡的分类器性能，因为类别不平衡问题可能会在二分类问题中得到放大。

一对一

"一对一"是一种在支持向量机（Support Vector Machine, SVM）进行多元分类时的常用策略。这种策略也被称为"one-vs-one"或"all-pairs"策略。

在进行多元分类的时候，我们经常会遇到一个问题，那就是传统的二元分类算法（如SVM）无法直接应用于多元问题，因为它们仅仅可以做出两种类别间的决策。

"一对一"策略旨在解决这个问题。它的基本思想很简单：

对于给定的 $n$ 个类别，为每一对类别训练一个二元分类器。当共有 $n$ 个类别时，这意味着我们需要训练 $n(n-1)/2$ 个这样的分类器。对于每个分类器，我们把来自其两个类别的样本视为正负两类，忽略其它类别的样本。

在分类阶段，所有的 $n(n-1)/2$ 个分类器都会被用来对样本进行分类，每个分类器所作的决策被视为一种"投票"，投票给它判定的类别。最后，每个样本都会被分配给得票最多的类别。

从这个角度来看，一对一策略实际上是一个"集成学习"的策略，把许多简单的二元分类器的决策综合起来，得到一个多元分类器。这种策略在许多实际问题中已被证明是非常有效的，尤其是在那些类别之间的区分度比较明显的数据集上。

支持向量分类和一般分类算法的区别

决策边界：SVC寻找的是最大化「分类间隔」的边界，即找到的边界到最近的点（支持向量）之间的距离是最大的。而大多数一般的分类算法，如逻辑回归，决策树等，没有这样的最大化「间隔」的概念。
核函数映射：SVC可以利用核函数将数据映射到更高维的空间，从而解决非线性分类问题。虽然一些一般的分类算法也可以通过特征工程来解决非线性问题，但SVC通过核函数的方式使这个过程更为自然和便捷。
稀疏性：一旦SVC训练完成，最后的决策函数只和部分数据（即支持向量）有关，获得了稀疏解，大大提高了计算效率。而大多数一般的分类算法，如KNN，决策树等，其预测是由训练集的全部或者大部分数据决定的。
少数样本学习：在样本非常稀缺的情况下，SVC因其最大化间隔的特性，通常可以取得更好的泛化能力，而一般的分类方法在样本稀缺的情况下可能会效果不好。
参数选择：SVC有两个重要参数，惩罚系数C和核函数参数，需要用交叉验证等方法去选择。而对于一些一般分类算法，例如决策树，则对参数不是太敏感。

准确性评价

要评估支持多元分类支持向量机的准确率，我们可以使用混淆矩阵（Confusion Matrix）来计算各种分类指标，如准确率、精确率、召回率和F1得分。

假设我们的多元分类支持向量机模型有两个类别，分别为正例（Positive）和反例（Negative）。

**准确率（Accuracy）**是衡量整体分类正确性的指标
**精确率（Precision）**是衡量预测为正例中真实为正例的比例
**召回率（Recall）**是衡量真实为正例中预测为正例的比例
**F1得分（F1-Score）**是精确率和召回率的综合指标

具体可见准确性评价指标的分类问题。

代码

python
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import numpy as np

# 加载鸢尾花数据集，并且只取前两个特征
iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target

# 切分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 设定搜索的参数
parameters = {'kernel':['linear', 'rbf'], 'C':[1,2,4,8], 'gamma':[0.125, 0.25, 0.5 ,1, 2, 4]}

# 执行网格搜索
svc = svm.SVC()
clf = GridSearchCV(svc, parameters)
clf.fit(X_train, y_train)

# 打印最优参数
print("best params: " + str(clf.best_params_))

# 用最优参数生成模型
svc_best = svm.SVC(kernel=clf.best_params_['kernel'], C=clf.best_params_['C'], gamma=clf.best_params_['gamma'])
svc_best.fit(X_train, y_train)

# 在测试集上预测并评估
y_pred = svc_best.predict(X_test)
print("Accuracy score: ", accuracy_score(y_test, y_pred))

# 生成网格数据
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
h = (x_max / x_min)/100
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

# 预测网格点的标签
Z = svc_best.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, cmap=plt.cm.coolwarm, alpha=0.8)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.coolwarm)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.title('SVC with ' + clf.best_params_['kernel'] + ' kernel')
plt.show()
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import numpy as np

# 加载鸢尾花数据集，并且只取前两个特征
iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target

# 切分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 设定搜索的参数
parameters = {'kernel':['linear', 'rbf'], 'C':[1,2,4,8], 'gamma':[0.125, 0.25, 0.5 ,1, 2, 4]}

# 执行网格搜索
svc = svm.SVC()
clf = GridSearchCV(svc, parameters)
clf.fit(X_train, y_train)

# 打印最优参数
print("best params: " + str(clf.best_params_))

# 用最优参数生成模型
svc_best = svm.SVC(kernel=clf.best_params_['kernel'], C=clf.best_params_['C'], gamma=clf.best_params_['gamma'])
svc_best.fit(X_train, y_train)

# 在测试集上预测并评估
y_pred = svc_best.predict(X_test)
print("Accuracy score: ", accuracy_score(y_test, y_pred))

# 生成网格数据
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
h = (x_max / x_min)/100
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

# 预测网格点的标签
Z = svc_best.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, cmap=plt.cm.coolwarm, alpha=0.8)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.coolwarm)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.title('SVC with ' + clf.best_params_['kernel'] + ' kernel')
plt.show()

加载鸢尾花数据集，并只保留前两个特征。
将数据集分为训练集和测试集，测试集的比例为20%，并设置起始的随机种子。
设置用于网格搜索的参数。
创建SVM分类器对象，然后将其和所定参数传递给GridSearchCV函数，进行网格搜索。
打印出网格搜索找到的最优参数。
使用最优参数创建新的SVM分类器，并用它来拟合训练集。
在测试集上进行预测，并使用准确度得分函数accuracy_score来打印出准确度得分。
对特征空间进行网格化，然后使用最优参数生成的模型对每个网格点进行预测。
使用将预测结果与原始数据一同可视化，直观地展示出分类器的性能。图上的各种颜色代表模型对应区域的预测分类，散点则代表实际的数据点。

输出结果：

none

best params: {'C': 1, 'gamma': 0.125, 'kernel': 'linear'}
Accuracy score:  0.9

应用

图像识别：使用SVC对图像中的物体或者人脸等进行识别
文本分类：将文本数据分为不同的主题类别
语音识别：使用SVC处理和分析语音数据
生物医学：对基因数据进行分类，用于疾病预测等。

优缺点

优点：

分类效果好：在许多实际的数据集上，SVC表现出优良的分类效果。
对于非线性分类问题，可通过合适的核函数，映射到高维空间进行处理。
通过调整参数C和gamma来控制模型复杂度，防止过拟合。

缺点：

对大规模样本，训练时间较长：因为SVC需要在训练集中选择支持向量，当数据集较大时，训练速度会很慢。
对参数敏感：SVC中需要选择合适的C和gamma值，选择不当可能会导致分类性能下降。
对缺失数据敏感，并且不适合处理有大量特征的数据。