自回归移动平均模型 ARMA

发布时间：2023年9月10日

更新时间：2023年12月25日

运用自回归移动平均模型 ARMA 的往年获奖论文

官方评析:MCM/ICM:2023:2318982

白话文

要理解ARMA模型，我们首先得明白它是两个模型的大杂烩——自回归模型（AR）和平均移动模型（MA）。自回归模型就像是我们在猜测一个人的未来，会参考他的过去; 平均移动模型则更像是在分析一个人的情绪波动，他现在的心情可能受之前一段时间内情绪的影响。

我们可以用种花的例子来形象理解一下。你有一个花园，你想预测明年的花会开得怎么样。自回归就好比你去翻看过去几年的花开记录，观察一下每年花开得好不好和那年的特定情况有什么关系（比如说气候、肥料的使用量等等）。你可能发现，一般来说，如果去年花开得好，那么今年花也会开得不错。

平均移动模型则不太一样，它更关注一些随机的、不好预料的因素，比如说突然之间来了一场病虫害，或者是邻居家的狗跑来你家花园里疯跑，这些因素都可能导致花开得不好。这个模型会考虑这些突发因素对花开的影响，即使这些情况已经过去了，但它们留下的影响可能还会持续一段时间。

现在，我们把这两个模型混合在一起，就得到了ARMA模型。这个模型不仅会考虑过去花开的规律，还会考虑那些偶然发生的、可能影响花开的突发事件。这样，我们预测花开的情况就既考虑了历史规律，又没有忽略随机事件的影响，预测结果自然更加全面和精准。

简而言之，ARMA模型综合了历史数据和随机干扰，它能帮我们更好地理解和预测一些像股票价格、天气变化这样随时间变化的序列数据。

所以，如果你想要预测未来的某个序列数据，比如说房价走势、商店的销量等等，可以想象你是一个有经验的花匠，你会根据以往的经验（自回归部分）和可能发生的意外（平均移动部分）综合判断，然后用ARMA模型这个工具来帮你更科学地预测未来。

定义与详解

ARMA模型是自回归移动平均模型（AutoRegressive Moving Average model）的缩写，集合了自回归模型（AR）和移动平均模型（MA），适合处理平稳的时间序列数据。

自回归模型（AR）：自回归模型是用自身的历史数据来进行预测，它假设当前观测值与之前的观测值存在线性关系。例如，AR(p)模型将时间序列Y在t时刻的值，表示为一个常数项和前p个历史值的线性组合，再加上一个误差项。表达式为：
$X_t = c + \sum_{i=1}^{p} \varphi_i X_{t-i} + \varepsilon_t.$
其中， $X_t$ 是在时间t的观测值， $\varphi_i$ 是模型的自回归系数，描述了 $t-i$ 时刻的观测值对t时刻观测值的影响， $\varepsilon_t$ 是白噪声，表示 $t$ 时刻的随机误差项， $c$ 是常数项。
移动平均模型（MA）：移动平均模型是用过去的误差项来进行预测，反映了历史预测误差对当前值的影响。例如，MA(q)模型将时间序列Y在t时刻的值，表示为一个常数项和前q个历史误差项的线性组合。
$X_t = \mu + \theta_t + \theta _1\varepsilon_{t-1} + \theta_2\varepsilon_{t-2} + ... + \theta_q\varepsilon_{t-q}.$
其中， $X_t$ 表示时间点t的观测值， $μ$ 是平均值， $\varepsilon_t$ 是白噪声误差， $\theta_1$ ， $\theta_2$ ，...， $\theta_q$ 是模型的参数，表示过去 $q$ 个时间点的误差对当前观测值的影响。

ARMA模型则把AR模型和MA模型结合起来，构成了一种能有效拟合和预测平稳时间序列的模型。ARMA(p,q)模型将时间序列X在t时段的值，表示为一方面是前p个历史值的线性组合（AR部分），另一方面是前q个历史误差项的线性组合（MA部分），最后增加一个常数项。这样既考虑了时间序列的自回归特性，又考虑了移动平均特性。表达式为：

X_t = \mu + \varphi_1X_{t-1} + \varphi_2X_{t-2} + ... + \varphi_pX_{t-p} + \theta_1\varepsilon_{t-1} + \theta_2\varepsilon_{t-2} + ... + \theta_q\varepsilon_{t-q} + \varepsilon_t

其中， $X_t$ 表示时间点 $t$ 的观测值， $\mu$ 是平均值， $\varphi_1$ ， $\varphi_2$ ，...， $\varphi_p$ 和 $\theta_1$ ， $\theta_2$ ，...， $\theta_q$ 是模型的参数， $\varepsilon_t$ 是白噪声误差。

代码

python
import pandas as pd
import numpy as np
import statsmodels.api as sm

# 生成一个ARMA模型的时间序列数据
np.random.seed(0)
n = 1000
ar_params = np.array([0.7, -0.4]) # AR模型的参数，其中的每个元素代表 AR 模型中的一个阶数对应的参数值
ma_params = np.array([0.2, 0.3]) # MA模型的参数，其中的每个元素代表 MA 模型中的一个阶数对应的参数值
arma_process = sm.tsa.ArmaProcess(ar_params, ma_params) # 基于指定的 AR 和 MA 参数生成 ARMA 模型的时间序列数据
data = arma_process.generate_sample(nsample=n)

# 拟合ARMA模型
model = sm.tsa.ARMA(data, order=(2, 2)) # 这里选择了AR阶数为2，MA阶数为2的ARMA模型
results = model.fit()

# 输出模型拟合结果
print(results.summary())

# 预测未来的值
forecast_start = n
forecast_end = n + 10
forecast_values = results.predict(start=forecast_start, end=forecast_end)

# 打印预测结果
print(forecast_values)
import pandas as pd
import numpy as np
import statsmodels.api as sm

# 生成一个ARMA模型的时间序列数据
np.random.seed(0)
n = 1000
ar_params = np.array([0.7, -0.4]) # AR模型的参数，其中的每个元素代表 AR 模型中的一个阶数对应的参数值
ma_params = np.array([0.2, 0.3]) # MA模型的参数，其中的每个元素代表 MA 模型中的一个阶数对应的参数值
arma_process = sm.tsa.ArmaProcess(ar_params, ma_params) # 基于指定的 AR 和 MA 参数生成 ARMA 模型的时间序列数据
data = arma_process.generate_sample(nsample=n)

# 拟合ARMA模型
model = sm.tsa.ARMA(data, order=(2, 2)) # 这里选择了AR阶数为2，MA阶数为2的ARMA模型
results = model.fit()

# 输出模型拟合结果
print(results.summary())

# 预测未来的值
forecast_start = n
forecast_end = n + 10
forecast_values = results.predict(start=forecast_start, end=forecast_end)

# 打印预测结果
print(forecast_values)

输出结果：

none

                                     ARMA Model Results
==============================================================================
Dep. Variable:                      y   No. Observations:                 1000
Model:                     ARMA(2, 2)   Log Likelihood                -557.144
Method:                       css-mle   S.D. of innovations              0.422
Date:                Mon, 25 Dec 2023   AIC                           1126.288
Time:                        20:51:18   BIC                           1155.735
Sample:                             0   HQIC                          1137.480

==============================================================================
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.0706      0.068     -1.035      0.301      -0.204       0.063
ar.L1.y        1.4377      0.070     20.513      0.000       1.300       1.575
ar.L2.y       -0.4696      0.052     -8.979      0.000      -0.572      -0.367
ma.L1.y       -0.2172      0.066     -3.270      0.001      -0.347      -0.087
ma.L2.y       -0.6190      0.044    -14.179      0.000      -0.705      -0.533
                                    Roots
=============================================================================
                  Real          Imaginary           Modulus         Frequency
-----------------------------------------------------------------------------
AR.1            1.0685           +0.0000j            1.0685            0.0000
AR.2            1.9930           +0.0000j            1.9930            0.0000
MA.1            1.1077           +0.0000j            1.1077            0.0000
MA.2           -1.4585           +0.0000j            1.4585            0.5000
-----------------------------------------------------------------------------
[-0.69647744 -0.37943429 -0.22069184 -0.14135483 -0.10183922 -0.08228518
 -0.0727293  -0.06817359 -0.0661114  -0.06528599 -0.06506771]

                                     ARMA Model Results
==============================================================================
Dep. Variable:                      y   No. Observations:                 1000
Model:                     ARMA(2, 2)   Log Likelihood                -557.144
Method:                       css-mle   S.D. of innovations              0.422
Date:                Mon, 25 Dec 2023   AIC                           1126.288
Time:                        20:51:18   BIC                           1155.735
Sample:                             0   HQIC                          1137.480

==============================================================================
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.0706      0.068     -1.035      0.301      -0.204       0.063
ar.L1.y        1.4377      0.070     20.513      0.000       1.300       1.575
ar.L2.y       -0.4696      0.052     -8.979      0.000      -0.572      -0.367
ma.L1.y       -0.2172      0.066     -3.270      0.001      -0.347      -0.087
ma.L2.y       -0.6190      0.044    -14.179      0.000      -0.705      -0.533
                                    Roots
=============================================================================
                  Real          Imaginary           Modulus         Frequency
-----------------------------------------------------------------------------
AR.1            1.0685           +0.0000j            1.0685            0.0000
AR.2            1.9930           +0.0000j            1.9930            0.0000
MA.1            1.1077           +0.0000j            1.1077            0.0000
MA.2           -1.4585           +0.0000j            1.4585            0.5000
-----------------------------------------------------------------------------
[-0.69647744 -0.37943429 -0.22069184 -0.14135483 -0.10183922 -0.08228518
 -0.0727293  -0.06817359 -0.0661114  -0.06528599 -0.06506771]

summary()方法表示ARMA模型结果的整体展示。以下是各部分的解释：

Dep. Variable: 被解释变量的名称（在这里只显示了y，意味着时间序列数据的名称或者标签）。
No. Observations: 数据中的观测点数量（在这里是1000个观测点）。
Model: 使用的模型类型和参数（在这里是ARMA(2, 2)，意味着自回归部分AR的阶数是2，移动平均部分MA的阶数也是2）。
Method: 参数估计方法（css-mle表示使用条件和平方和方法结合最大似然估计）。
Log Likelihood: 模型的对数似然值（在这里是-557.144，通常来说，对数似然值越大，模型拟合的越好）。
S.D. of innovations: 拟合残差的标准差（在这里是0.422，表示残差的波动大小）。
AIC: 赤池信息准则值（在这里是1126.288，用于模型比较，值越小表示模型越优）。
BIC: 贝叶斯信息准则值（在这里是1155.735，也是模型比较的一种标准，值越小表示模型越优）。
HQIC: 汉南-奎恩信息准则值（在这里是1137.480，同样用于模型比较，原理类似于AIC和BIC）。

下面是参数的估计结果：

const: 模型中常数项的估计值，其标准误差，z统计量（系数除以标准误差），P值（检验系数显著不为0的概率），以及95%置信区间。
ar.L1.y: 第一个自回归项的系数。
ar.L2.y: 第二个自回归项的系数。
ma.L1.y: 第一个移动平均项的系数。
ma.L2.y: 第二个移动平均项的系数。

每个参数旁边的括号包含了：

coef: 系数的估计值。
std err: 系数的标准误差。
z: z统计量，通常用于假设检验。
P>|z|: 系数显著不为零的p值。
[0.025 0.975]: 系数的95%置信区间。

最后部分列出了模型的根（roots），这些是AR和MA多项式的解，它们可以用来分析模型的稳定性和可逆性：

AR.1 和 AR.2 是自回归多项式的根。
MA.1 和 MA.2 是移动平均多项式的根。

模型的稳定性要求所有AR根都在单位圆外，即它们的模长（Modulus）大于1。可逆性要求所有MA根也都在单位圆外。在这个模型中，所有根的模都大于1，所以模型是稳定且可逆的。

应用

应用领域：

经济和金融：ARMA模型可以用于预测股票价格、汇率、经济指标等经济和金融数据。
气象学：ARMA模型可以用于气温、降水量等气象数据的建模和预测。
工业工程：ARMA模型可以用于预测生产过程中的质量、故障、需求等变量。

适用问题：

预测：ARMA模型可以利用过去的观测值来预测未来的值，适用于各种需要预测未来变量值的问题。
滤波：ARMA模型可以用于去除时间序列数据中的噪声和异常值。
识别：ARMA模型可以识别时间序列数据中的规律和趋势，如周期性、季节性等。
假设检验：ARMA模型可以用于检验时间序列数据的平稳性和随机性假设。

优缺点

优点：
1. 灵活性：ARMA模型可以适应各种类型的时间序列数据，包括线性和非线性关系。
2. 自适应性：ARMA模型的阶数可以根据数据的特点进行调整，从而更好地拟合数据。
3. 参数解释性：ARMA模型的参数具有明确的统计意义，可以用于解释时间序列数据中的相关关系。
缺点：
1. 数据要求：ARMA模型要求时间序列数据是平稳的，如果数据不满足平稳性假设，则需要进行差分或转换处理。
2. 参数估计：ARMA模型的参数估计可能需要数值优化方法，而且估计结果可能存在不稳定性。

自回归移动平均模型 ARMA

运用 自回归移动平均模型 ARMA 的往年获奖论文

白话文

定义与详解

代码

应用

优缺点

运用自回归移动平均模型 ARMA 的往年获奖论文