自回归积分滑动平均模型 ARIMA

发布时间：2023年9月10日

更新时间：2023年12月25日

运用自回归积分滑动平均模型 ARIMA 的往年获奖论文

官方评析:MCM/ICM:2023:2311035

官方评析:MCM/ICM:2023:2318982

官方评析:MCM/ICM:2023:2307946

官方评析:MCM/ICM:2023:2309397

官方评析:MCM/ICM:2023:2310767

官方评析:MCM/ICM:2023:2305794

官方评析:MCM/ICM:2023:2311517

官方评析:MCM/ICM:2023:2312411

官方评析:MCM/ICM:2023:2303967

白话文

自回归积分滑动平均模型（Autoregressive Integrated Moving Average，ARIMA），有三个能力：自回归（AR）、差分积分（I）、滑动平均（MA）。

现在你对自回归和滑动平均已经很熟了，那我这里就不多说了，直接来聊聊“积分”（I）这个环节。在ARIMA模型中，"I"指的是“差分”的次数，也就是我们为了让数据变得稳定（没有明显的趋势或者季节性波动）而做的处理次数。

可能你会问，什么是差分呢？其实很简单，就像我们小时候玩的“你比我多几个”，我们每次只关注相邻两个数之间的差距。在时间序列分析中，我们也做类似的操作，用前一个时间点的数据减去当前时间点的数据，这就是一次差分。而“积分”（Integration）这个词，在这里其实就是差分的逆过程。为什么要这么做呢？因为我们希望通过差分让数据变得平稳，只有平稳的数据才更容易预测。

比如，你想预测一个小镇的人口数量，但如果这个小镇每年的人口增长都很稳定，比如每年都增长1000人，那这个序列就不是平稳的，因为它有一个明显的上升趋势。这时候，我们就可以用差分来消除这个趋势。我们不直接看每年的总人口数，而是看每年的人口增长数。这样一来，数据就变得相对平稳了，因为增长数可能就没有那么规律的趋势了。

具体到我们的ARIMA模型中，"I"就是告诉模型需要做几次这样的操作，才能让数据足够平稳，好让模型更准确地进行预测。如果你不需要做差分，或者一次差分就够了，那么"I"就是0或者1；如果需要多次差分，那么"I"的数值就会更大。

总的来说，ARIMA模型可以通过AR和MA的分析时间序列的规律性，再用I消除趋势和季节性影响，让我们能够预测未来的走势。

定义与详解

ARIMA（Autoregressive Integrated Moving Average）模型是一种常用的时间序列分析和预测模型，用于处理平稳和非平稳时间序列数据。ARIMA模型结合了自回归（AR）、差分（I）和移动平均（MA）三个成分，以捕捉数据中的趋势、自相关性和随机性。

ARIMA模型的原理如下：

自回归成分（AR）：自回归部分表明了当前时间点的值与之前一系列时间点的值之间的关系。如果记模型的自回归阶数为p，那么可以利用前p个时刻的数据来预测当前时刻的值。
差分成分（I）：对于非平稳时间序列，我们可以通过差分操作来消除数据的趋势和季节性，从而将非平稳序列转换为平稳序列。差分阶数d代表了要进行的差分次数。
移动平均成分（MA）：移动平均部分反映了当前时间点的值与之前一系列预测误差之间的关系。若模型的移动平均阶数为q，则利用前q个时刻的预测误差来辅助当前时刻的预测。

综合上述成分，ARIMA模型的数学表示如下：

ARIMA( $p$ , $d$ , $q$ )：

(1 - \varphi_1B - \varphi_2B^2 - ... - \varphi_pB^p)(1 - B)^dX_t\ = (1 + \theta_1B + \theta_2B^2 + ... + \theta_qB^q)\varepsilon_t.

其中：

$\varphi_1$ ， $\varphi_2$ ，…， $\varphi_p$ 是自回归系数（AR parameters）。
$\theta_1$ ， $\theta_2$ ，…， $\theta_q$ 是移动平均系数（MA parameters）。
$B$ 是后移算子（backshift operator）。
$d$ 是差分次数（order of differencing）。
$X_d$ 是时间点 $t$ 的观测值。
$\varepsilon_t$ 是误差项（error term）。

在ARIMA模型中，符号 $B$ 代表的是后移算子，也称为滞后算子。后移算子是一种用来表示时间序列中过去值的数学工具，它可以将时间序列中的观测值按照时间向后移动指定的步数。

举个例子来说明后移算子的作用：

当我们用 $B$ 作用在时间序列的某个观测值 $X_t$ 上时， $BX_t$ 表示的是 $t-1$ 时刻的观测值，即 $X_{t-1}$ 。
如果我们用 $B^2$ 作用在 $X_t$ 上，那么 $B^2X_t$ 表示的是 $t-2$ 时刻的观测值，即 $X_{t-2}$ 。

以此类推， $B^kX_t$ 代表的就是 $t-k$ 时刻的观测值 $X_{t-k}$ ，其中 $k$ 是正整数。

在ARIMA模型的公式中，后移算子 $B$ 被用来表示自回归部分和移动平均部分中的滞后项。比如，在自回归部分，系数 $\varphi_1B$ 表示时间序列的当前观测值与前一期观测值的关系，而在移动平均部分，系数 $\theta_1B$ 表示当前观测值与前一期预测误差的关系。

差分成分中， $(1-B)^d$ 用来表示对时间序列进行 $d$ 阶差分。一阶差分可以表示为 $(1-B)X_t = X_t - X_{t-1}$ ，即当前观测值与前一期观测值的差。二阶差分则是 $(1-B)^2X_t = (1-B)(X_t - X_{t-1}) = X_t - 2X_{t-1} + X_{t-2}$ ，以此类推。

后移算子是时间序列分析中的一个抽象概念，它简化了差分和滞后项的数学表达，使得ARIMA模型的公式表示更为紧凑和清晰。

代码

python
import numpy as np
import pandas as pd
from statsmodels.tsa.arima.model import ARIMA

# 生成一个示例数据
np.random.seed(0)
n = 100
data = np.random.normal(loc=0, scale=1, size=n)
index = pd.date_range(start='2022-01-01', periods=n, freq='D')
series = pd.Series(data, index=index)

# 拟合ARIMA模型
model = ARIMA(series, order=(1, 0, 1))  # 这里选择了AR阶数为1，差分阶数为0，MA阶数为1的ARIMA模型
results = model.fit()

# 输出模型拟合结果
print(results.summary())

# 预测未来的值
forecast_start = series.index[-1] + pd.DateOffset(days=1)  # 使用最后一个数据点的时间戳作为预测起始点
forecast_end = forecast_start + pd.DateOffset(days=10)  # 预测未来10天的数据
forecast = results.predict(start=forecast_start, end=forecast_end)

# 打印预测结果
print(forecast)
import numpy as np
import pandas as pd
from statsmodels.tsa.arima.model import ARIMA

# 生成一个示例数据
np.random.seed(0)
n = 100
data = np.random.normal(loc=0, scale=1, size=n)
index = pd.date_range(start='2022-01-01', periods=n, freq='D')
series = pd.Series(data, index=index)

# 拟合ARIMA模型
model = ARIMA(series, order=(1, 0, 1))  # 这里选择了AR阶数为1，差分阶数为0，MA阶数为1的ARIMA模型
results = model.fit()

# 输出模型拟合结果
print(results.summary())

# 预测未来的值
forecast_start = series.index[-1] + pd.DateOffset(days=1)  # 使用最后一个数据点的时间戳作为预测起始点
forecast_end = forecast_start + pd.DateOffset(days=10)  # 预测未来10天的数据
forecast = results.predict(start=forecast_start, end=forecast_end)

# 打印预测结果
print(forecast)

输出结果：

none

                                     SARIMAX Results
==============================================================================
Dep. Variable:                      y   No. Observations:                  100
Model:                 ARIMA(1, 0, 1)   Log Likelihood                -140.723
Date:                Mon, 25 Dec 2023   AIC                            289.445
Time:                        21:09:16   BIC                            299.866
Sample:                    01-01-2022   HQIC                           293.663
                         - 04-10-2022
Covariance Type:                  opg
==============================================================================
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.1766      0.224      0.788      0.431      -0.263       0.616
ar.L1          0.9561      0.060     15.886      0.000       0.838       1.074
ma.L1         -0.8842      0.094     -9.358      0.000      -1.069      -0.699
sigma2         0.9745      0.148      6.581      0.000       0.684       1.265
===================================================================================
Ljung-Box (L1) (Q):                   0.16   Jarque-Bera (JB):                 0.23
Prob(Q):                              0.69   Prob(JB):                         0.89
Heteroskedasticity (H):               0.68   Skew:                            -0.04
Prob(H) (two-sided):                  0.28   Kurtosis:                         2.78
===================================================================================

2022-04-11    0.343304
2022-04-12    0.335981
2022-04-13    0.328980
2022-04-14    0.322287
2022-04-15    0.315887
2022-04-16    0.309768
2022-04-17    0.303919
2022-04-18    0.298326
2022-04-19    0.292979
2022-04-20    0.287866
2022-04-21    0.282978
Freq: D, Name: predicted_mean, dtype: float64

                                     SARIMAX Results
==============================================================================
Dep. Variable:                      y   No. Observations:                  100
Model:                 ARIMA(1, 0, 1)   Log Likelihood                -140.723
Date:                Mon, 25 Dec 2023   AIC                            289.445
Time:                        21:09:16   BIC                            299.866
Sample:                    01-01-2022   HQIC                           293.663
                         - 04-10-2022
Covariance Type:                  opg
==============================================================================
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.1766      0.224      0.788      0.431      -0.263       0.616
ar.L1          0.9561      0.060     15.886      0.000       0.838       1.074
ma.L1         -0.8842      0.094     -9.358      0.000      -1.069      -0.699
sigma2         0.9745      0.148      6.581      0.000       0.684       1.265
===================================================================================
Ljung-Box (L1) (Q):                   0.16   Jarque-Bera (JB):                 0.23
Prob(Q):                              0.69   Prob(JB):                         0.89
Heteroskedasticity (H):               0.68   Skew:                            -0.04
Prob(H) (two-sided):                  0.28   Kurtosis:                         2.78
===================================================================================

2022-04-11    0.343304
2022-04-12    0.335981
2022-04-13    0.328980
2022-04-14    0.322287
2022-04-15    0.315887
2022-04-16    0.309768
2022-04-17    0.303919
2022-04-18    0.298326
2022-04-19    0.292979
2022-04-20    0.287866
2022-04-21    0.282978
Freq: D, Name: predicted_mean, dtype: float64

应用

应用领域：

经济和金融：ARIMA模型可以用于预测经济指标、股票价格、汇率等经济和金融数据。
气象学：ARIMA模型可以用于预测气温、降水量、风速等气象数据。
生产调度：ARIMA模型可以用于预测销售数量、库存量等，以及对生产过程进行调度和管理。
时间序列数据分析：ARIMA模型可以用于时间序列数据的分析和建模，以揭示时间序列数据中的潜在规律和关联关系。

适用问题：

预测：ARIMA模型可以利用过去的观测值来预测未来的值，适用于各种需要预测未来变量值的问题。
建模：ARIMA模型可以用于对时间序列数据的长期趋势、周期性和季节性进行建模和分析。
平稳性检验：ARIMA模型可以用于检验时间序列数据的平稳性假设，并进行必要的差分处理。
模型选择：ARIMA模型包含了多个参数，可以通过模型诊断和性能评估来确定最优的模型选择。

优缺点

优点：

灵活性：ARIMA模型能够适应各种类型的时间序列数据，包括线性和非线性关系，具有较强的拟合能力。
自适应性：ARIMA模型的拟合过程中可自动选择合适的阶数和差分项，简化了建模的步骤。
参数解释性：ARIMA模型的参数具有明确的统计意义，可以用于解释时间序列数据中的相关关系。

缺点：

高阶模型复杂度：当ARIMA模型的阶数较高时，模型的复杂度较高，参数估计可能存在不稳定性和模型的识别困难。
数据要求：ARIMA模型要求时间序列数据是平稳的，如果数据不满足平稳性假设，则需要进行差分处理。

自回归积分滑动平均模型 ARIMA

运用 自回归积分滑动平均模型 ARIMA 的往年获奖论文

白话文

定义与详解

代码

应用

优缺点

运用自回归积分滑动平均模型 ARIMA 的往年获奖论文