ARIMA模型是时间序列预测中一种常用的统计方法。

指数平滑和ARIMA模型是时间序列预测中应用最为广泛的两种方法，它们是解决这一问题的补充方法。

由Kaizong Ye，Liao Bao撰写

最近我们被客户要求撰写关于预测销量时间序列的研究报告。指数平滑模型是基于对数据趋势和季节性的描述，而ARIMA模型则是为了描述数据的自相关性。

在讨论ARIMA模型之前，我们先来讨论平稳性的概念和时间序列的差分技术。

严谨的定义：一个时间序列的随机变量是稳定的，当且仅当它的所有统计特征都是独立于时间的（是关于时间的常量）。

判断的方法：

（1）稳定的数据是没有趋势(trend)，没有周期性(seasonality)的; 即它的均值，在时间轴上拥有常量的振幅，并且它的方差，在时间轴上是趋于同一个稳定的值的。

（2）可以使用Dickey-Fuller Test进行假设检验。

平稳性

平稳时间序列数据的性质不依赖于时间，这就是为什么具有趋势或季节性的时间序列不是平稳的。

趋势和季节性会在不同的时间影响时间序列的值，另一方面，对于平稳性，当你观察它时并不重要，它在任何时间点看起来都应该是相同的。一般来说，一个平稳的时间序列在长期内没有可预测的模式。

ARIMA是自回归综合移动平均线的缩写。它是一类在时间序列数据中捕获一组不同标准时间结构的模型。
在本教程中，我们将讨论如何用Python开发时间序列预测的ARIMA模型。
ARIMA模型是一类用于分析和预测时间序列数据的统计模型。它在使用上确实简化了，但是这个模型确实很强大。
ARIMA代表自回归综合移动平均。ARIMA模型的参数定义如下：
p：模型中包含的滞后观测数，也称为滞后阶数。
d：原始观测值的差异次数，也称为差分阶数。
q：移动平均线窗口的大小，也叫移动平均阶数。

建立一个包含指定数量和类型的项的线性回归模型，并通过差分程度来准备数据，使其平稳，即去除对回归模型产生负面影响的趋势和季节结构。

步骤

1可视化时间序列数据
2确定日期是否平稳
3绘制相关图和自相关图
4根据数据建立ARIMA模型或季节ARIMA模型

可下载资源

完整程序、数据和文档（word）

最受欢迎的见解

1.在python中使用lstm和pytorch进行时间序列预测

2.python中利用长短期记忆模型lstm进行时间序列预测分析

3.Python用RNN循环神经网络：LSTM长期记忆、GRU门循环单元、回归和ARIMA对COVID-19新冠疫情新增人数时间序列

4.Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

5.r语言copulas和金融时间序列案例

6.R 语言用RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测

7.Matlab创建向量自回归（VAR）模型分析消费者价格指数 (CPI) 和失业率时间序列

8.r语言k-shape时间序列聚类方法对股票价格时间序列聚类

9.R语言结合新冠疫情COVID-19股票价格预测：ARIMA，KNN和神经网络时间序列分析

自适应网页宽度的 Bilibili 视频

视频

在Python和R语言中建立EWMA，ARIMA模型预测时间序列

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

在本教程中，我正在使用下面的数据集。

df.head()

#更新表头
df.columns=["月份","销量"]
df.head()

df.plot()

如果我们看到上面的图表，那么我们将能够找到一个趋势，即有一段时间销售很高，反之亦然。这意味着我们可以看到数据是遵循季节性的。对于ARIMA，我们首先要做的是确定数据是平稳的还是非平稳的。如果数据是非平稳的，我们会尽量使它们平稳，然后我们会进一步处理。
让我们检查给定的数据集是否是平稳的，为此我们使用adfuller检验。

Python中的ARIMA模型、SARIMA模型和SARIMAX模型对时间序列预测

阅读文章 ➜

我通过运行上述代码导入了检验函数。

为了确定数据的性质，我们将使用零假设。
H0:零假设:这是一个关于总体的陈述，要么被认为是正确的，要么被用来提出一个论点。
H1:备选假设:与H0相矛盾，当我们拒绝H0时，我们得出的结论。

Ho:它是非平稳的

H1:它是平稳的

我们将考虑数据不平稳的零假设和数据平稳的备择假设。

 adfuller_test(df['销量'])

运行上述代码后，我们将得到P值，

ADF Test Statistic : -1.833
p-value : 0.363915
#Lags Used : 11
Number of Observations : 93

随时关注您喜欢的主题

这里P值是0.36，大于0.05，这意味着数据接受了零假设，这意味着数据是非平稳的。
我们来看看一阶差分和季节性差分：

df['Sales First Difference'] = df['销量'] - df['销量'].shift(1)

# 再次测试数据是否平稳
adfuller_test(df['Seasonal First Difference'].dropna())

ADF Test Statistic : -7.626619157213163
p-value : 2.060579696813685e-11
#Lags Used : 0
Number of Observations : 92

这里p值是2.06，表示拒绝零假设。所以数据是平稳的。

自相关系数

autocorrelation_plot(df['销量'])
plt.show()

plot_acf(df['季节性一阶差分'].dropna(),lags=40,ax=ax1)

建立ARIMA模型

#对于非季节性数据
#p=1, d=1, q=0 or 1

model=ARIMA(df['销量'],order=(1,1,1))

predict(start=90,end=103,dynamic=True)

 plot(figsize=(12,8))

SARIMA模型

然后建立SARIMA模型

可以看到拟合效果要优于ARIMA模型。

然后我们用SARIMA模型对未来进行预测。

 future_df['预测'] = results.predict(start = 104, end = 120, dynamic= True)
future_df.plot(figsize=(12, 8))

结论

时间序列预测是非常有用的，有很多其他模型可以做时间序列预测，但ARIMA是很容易理解的。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

Python用ARIMA和SARIMA模型预测销量时间序列数据

ARIMA模型是时间序列预测中一种常用的统计方法。

平稳性

步骤

Python中的ARIMA模型、SARIMA模型和SARIMAX模型对时间序列预测

随时关注您喜欢的主题

这里p值是2.06，表示拒绝零假设。所以数据是平稳的。

自相关系数

建立ARIMA模型

SARIMA模型

结论

相关文章

Python用ARIMA和SARIMA模型预测销量时间序列数据

ARIMA模型是时间序列预测中一种常用的统计方法。

平稳性

步骤

Python中的ARIMA模型、SARIMA模型和SARIMAX模型对时间序列预测

随时关注您喜欢的主题

这里p值是2.06，表示拒绝零假设。所以数据是平稳的。

自相关系数

建立ARIMA模型

SARIMA模型

结论

相关文章

关注我们，永远不要错过任何见解。