准确性评价指标

发布时间：2023年9月24日

更新时间：2023年12月18日

回归/时间序列问题

均方误差

均方误差（Mean Squared Error，MSE）用于衡量模型对实际观测值的拟合程度，计算方式是将预测值与实际观测值之间的差异平方后取平均。MSE越小，表示模型的预测误差越小，该模型效果越好。

MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

其中， $n$ 是样本数量， $y$ 是实际观测值， $ŷ$ 是模型的预测值。

均方根误差

均方根误差（Root Mean Squared Error，RMSE）是MSE的平方根，它可以解释为模型预测值与实际观测值之间的平均差异。RMSE越小，表示模型的预测误差越小，该模型效果越好。

RMSE = \sqrt{MSE}

平均绝对误差

平均绝对误差（Mean Absolute Error，MAE）用于衡量模型对实际观测值的拟合程度，计算方式是将预测值与实际观测值之间的差异取绝对值后取平均。MAE越小，表示模型的预测误差越小。

MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|

其中， $n$ 是样本数量， $y$ 是实际观测值， $ŷ$ 是模型的预测值。

相对误差

相对误差（Relative Error）是模型预测值与实际观测值之间差异的相对比例。计算方法是将每个预测值与相应的观测值之差除以观测值的绝对值，然后求平均值。相对误差可以帮助判断模型预测的相对准确程度。

RE = \frac{1}{N}\sum_{i=1}^{N}\left|\frac{y_{i}-\hat{y}_{i}}{y_{i}}\right|

其中， $y_{i}$ 表示实际观测值， $\hat{y}_{i}$ 表示模型预测值， $N$ 表示总的观测点数量。然而，若存在实际值为 0 或接近于零的情况，这个度量的结果可能会无穷大或者非常大。

决定系数

决定系数（Coefficient of Determination，R-squared）衡量了模型对观测数据方差的解释程度，它表示模型能够解释观测值变异性的比例。R-squared的取值范围在0到1之间，越接近1表示模型对数据的拟合程度越好，该模型效果越好。

R^2 = 1 - \frac{SS_{res}}{SS_{tot}}

其中， $SS_{res}$ 是残差平方和， $SS_{tot}$ 是总平方和。

残差

残差（Residuals）是指模型预测值与实际观测值之间的差异，即残差 = 实际观测值 - 预测值,

residual = y - \hat{y}

其中， $y$ 是实际观测值， $ŷ$ 是模型的预测值。

残差表示了模型未能完全解释的部分，通常我们希望残差越小越好。

残差平方和

残差平方和（Sum of Squared Residuals， $SS_{res}$ ）是残差的平方加总。它度量了模型预测值与实际观测值之间的总体误差的大小。 $SS_{res}$ 越小，表示模型对数据的拟合程度越好。

SS_{res} = Σ(residual^2)

总平方和

总平方和（Total Sum of Squares， $SS_{tot}$ ）是实际观测值与观测值均值之间的差异的平方加总。它度量了数据的方差，表示了数据的总体变异性。

SS_{tot} = Σ(y - \bar{y})^2

其中， $y$ 是实际观测值， $\bar{y}$ 是观测值的均值。

分类问题

假设我们的分类模型有两个类别，分别为正例（Positive）和反例（Negative）。

准确率

准确率（Accuracy）是衡量整体分类正确性的指标，计算公式如下：

Accuracy = (TP + TN) / (TP + TN + FP + FN) .

精确率

精确率（Precision）是衡量预测为正例中真实为正例的比例，计算公式如下：

Precision = TP / (TP + FP).

召回率

召回率（Recall）是衡量真实为正例中预测为正例的比例，计算公式如下：

Recall = TP / (TP + FN).

F1得分

F1得分（F1-Score）是精确率和召回率的综合指标，计算公式如下：

\text{F1-Score} = 2 * Precision * Recall / (Precision + Recall).

这些指标可以提供对逻辑回归模型分类准确性的综合评估。与准确率相比，精确率和召回率更能揭示模型在某一类别上的表现，而F1得分综合了精确率和召回率，有助于综合评估模型的分类性能。

通过计算混淆矩阵中的各项值，我们可以计算出以上指标，从而评估分类模型的准确率和分类性能。

AUC-ROC曲线

AUC-ROC 是一个用于评估二元分类器性能的指标，AUC (Area Under Curve) 表示的是曲线下的面积，ROC (Receiver Operating Characteristic) 即接收者操作特性曲线。

ROC曲线

ROC曲线的横轴为"假正例率(FPR，False Positive Rate)"，纵轴为"真正例率(TPR，True Positive Rate)"。FPR定义为：FP/(TN+FP)，其中FP为假正例数，TN为真反例数；TPR定义为：TP/(TP+FN)，其中TP为真正例数，FN为假反例数。 ROC曲线就是在各种阈值下，TPR和FPR的关系图。

AUC值

AUC值即ROC曲线下的面积，这个数值的大小一般在0.5与1之间。如果预测完全准确，AUC值为1；如果预测完全随机，AUC值为0.5。所以，模型的预测效果越好，AUC值越接近1。

AUC-ROC非常适合评估样本不均衡情况下的二元分类器性能。ROC曲线可以展示出在各种分类阈值下，分类器的敏感性和特异性，而AUC值则为我们提供了一个量化指标，便于比较不同模型的性能。

需要注意的是，AUC-ROC更在意模型对样本排序的能力，而非确定性的预测结果。当需要关注具体分类结果的时候，可能还需要配合混淆矩阵，查准查全率等其它评价指标。

TODO: 图