回归

计算子集 $D_1$ 的目标变量的均值 $\bar{y_1}$ 和子集 $D_2$ 的目标变量的均值 $\bar{y_2}$ 。
对于 $D_1$ 中的每个数据点 $x$ ，计算其真实值y与均值 $\bar{y_1}$ 的差的平方，然后对这些差的平方求和，并除以 $D_1$ 的大小 $|D_1|$ 。
对于 $D_2$ 中的每个数据点 $x$ ，执行类似的计算。
将这两部分的MSE求和，得到当前分割点 $t$ 下的总MSE。

分割数据

一旦我们确定了最佳的特征和分割点，我们就可以根据这个特征和分割点将数据集划分为两个子集。然后，在每个子集上，我们重复特征选择和分割的过程。

停止条件

我们会继续在每个子节点上重复特征选择和分割的过程，直到满足某个停止条件。常见的停止条件有：

所有样本的目标变量都相同
没有剩余的特征
增加分支不能显著减小MSE或MAE

当满足停止条件时，我们将当前节点标记为叶节点。

确定叶节点的值

在回归问题中，叶节点的值通常是所有样本的目标变量的均值或中位数。这个值就是我们对到达这个叶节点的样本的预测结果。

剪枝

为了防止过拟合，我们通常需要对决策树进行剪枝。剪枝可以是预剪枝（在构建决策树的过程中进行）或后剪枝（在构建完决策树后进行）。剪枝的目标是找到一个平衡，使模型在训练数据上的表现良好，同时也能在未见过的数据上泛化。

预测

最后，当我们得到一个新的样本时，我们可以使用决策树进行预测。从根节点开始，根据样本在每个节点的特征取值来决定走哪个分支，直到达到一个叶节点。叶节点的值就是我们对这个样本的预测结果。

代码

python
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

# 加载波士顿房价数据集
boston = load_boston()
X = boston.data
y = boston.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建决策树回归器并训练
reg = DecisionTreeRegressor(max_depth=3)
reg.fit(X_train, y_train)

# 预测测试集
y_pred = reg.predict(X_test)

# 计算并打印均方误差
mse = mean_squared_error(y_test, y_pred)
print('均方误差为：', mse)

# 可视化决策树
plt.figure(figsize=(15,10))
plot_tree(reg, filled=True, feature_names=boston.feature_names)
plt.show()
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt

# 加载波士顿房价数据集
boston = load_boston()
X = boston.data
y = boston.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建决策树回归器并训练
reg = DecisionTreeRegressor(max_depth=3)
reg.fit(X_train, y_train)

# 预测测试集
y_pred = reg.predict(X_test)

# 计算并打印均方误差
mse = mean_squared_error(y_test, y_pred)
print('均方误差为：', mse)

# 可视化决策树
plt.figure(figsize=(15,10))
plot_tree(reg, filled=True, feature_names=boston.feature_names)
plt.show()

这段代码加载了波士顿房价数据集，将数据集划分为训练集和测试集。然后，创建一个决策树回归器，并使用训练集对其进行训练。使用训练好的决策树回归器对测试集进行预测。计算并打印了预测结果的均方误差，用于评估回归器的性能。最后对分类结果进行可视化展示。

运行结果：

none

均方误差为： 13.491273032995437

回归

运用 决策树 的往年获奖论文

步骤与详解

特征选择

分割数据

停止条件

确定叶节点的值

剪枝

预测

代码

运用决策树的往年获奖论文