python# 导入所需的库import numpy as npimport pandas as pdimport datetime as dtimport seaborn as sns import matplotlib.pyplot as pltfrom sklearn.metrics import mean_squared_errorfrom math import sqrtfrom pandas.plotting import autocorrelation_plot

读取数据集到数据框：

python# 将数据集读取到数据框中df.head()

绘制比特币价格随时间变化的图表：

python复制# 绘制比特币价格随时间变化的图表plt.tight_layout()

正如图表所示，2017-2021年的价格行为与2012-2017年有显著不同

绘制自相关图，查看时间序列中是否存在大量的滞后：

python复制# 绘制自相关图，查看时间序列中是否存在大量的滞后autocorrelation_plot(df)plt.show()

查看过去200天的数据，可能需要调整数据以适应这个时间段：

python复制# 查看过去200天的数据，可能需要调整数据以适应这个时间段df.Weighted_Price.iloc[-200:].figsize=(14,6))plt.tight_layout()plt.show()

df2.Weighted_Price.plot(title = "Bitcoin Price", figsize=(14,6))plt.tight_layout()plt.xlabel('Dates')plt.ylabel('$ Price')plt.show()

数据看起来对于训练模型更为相关。然而，最近的峰值将涉及测试数据分割 – 这是一个艰难的预测。

1. ARIMA滚动预测

首先，我创建了一个ARIMA滚动预测模型，以获得一个优秀的RMSE基线。然而，由于这个模型是按滚动的日增量进行预测的，与其他模型进行比较并不公平。如图所示，预测值以红色显示，实际价格以蓝色显示。然而，我们必须放大更多才能区分两者。
评估预测：

# 评估预测 rmse = sqrt(mean_squared_error(test, predictions)) print(# 绘制预测与实际结果的对比图 plt.plot(test) plt.plot(predictions, color='red') plt.show()

plt.plot(predictions, color='red')plt.xlabel('Days')plt.ylabel('$ Price')plt.title('Predicted vs. Actual BTC Price')plt.show()

Test RMSE: 914.737

plt.plot(predictions[-50:], color='red')plt.xlabel('Days')plt.ylabel('$ Price')plt.title('Predicted vs. Expected BTC Price Forecast')plt.show()

2. PROPHET模型

Prophet库是由Facebook开发的开源库，专为时间序列数据的自动预测而设计。该模型主要关注趋势和季节性的预测。但由于其易用性，我决定首先使用默认设置来实现这个模型。如图所示，先知模型预测比特币价格将会下跌。此外，该模型还提供了上限和下限的估计值（阴影区域的边缘）。虽然上限估计的斜率方向准确，但与测试数据相比，这个模型表现不佳。

频率为天，周期为测试数据的长度：

# 频率为天，周期为测试数据的长度 future = model.make_future_dataframe(periods=len(test), freq='D') forecasting = model.predict(future) # 存储预测结果并返回RMSE y_true = test['y'].values y_pred = forecasting.yhat.values[-len(test):]

# 绘制预测图 model.plot(forecasting)plt.ylabel('$ Price')plt.xlabel('Date')plt.show()

3. ARIMA模型

接下来是ARIMA模型，它是自回归积分滑动平均（AutoRegressive Integrated Moving Average）的缩写。ARIMA是一种广泛使用的统计方法，用于分析和预测时间序列数据。它由一组时间序列数据的标准结构组成，并提供了一种简单而强大的方法来进行熟练的时间序列预测。ARIMA模型有3个参数（p, d, q），这些参数指示正在使用的特定ARIMA模型。我只是应用了我以前在不同的时间序列数据上使用过的参数，这可能导致模型不利。# 按照常规方法将数据分为70%的训练集和30%的测试集price = df2.Weighted_Price # 获取比特币加权价格数据X = price.values # 将价格数据转换为数值数组datesX = price.index # 获取价格数据的索引（日期）size = int(len(X) * 0.70) # 计算训练集的大小train, test = X[0:size], X[size:len(X)] # 分割数据为训练集和测试集days_in_year = 365 # 定义一年中的天数plotDates = datesX[size:len(X)] # 获取测试集的日期索引，用于后续绘图# 使用ARIMA模型进行预测，参数设置为(5,1,0)differenced = difference(train, days_in_year) # 对训练数据进行差分处理，以满足ARIMA模型的平稳性要求model = ARIMA(differenced, order=(5, 1, 0)) # 初始化ARIMA模型，参数p=5, d=1, q=0model_fit = model.fit() # 拟合模型start_index = len(differenced) # 预测的起始索引end_index = start_index + 438 # 预测的结束索引，这里选择了438步进行预测forecast = model_fit.predict(start=start_index, end=end_index) # 进行预测history = [x for x in train] # 初始化历史数据列表，用于存储训练数据day = 1 # 初始化天数计数器predicted_results = list() # 初始化预测结果列表

4. LSTM模型

长短期记忆（LSTM）模型是一种能够学习观察序列的循环神经网络。这使它们成为适合时间序列预测的深度学习网络。然而，通常LSTM在处理像比特币这样波动大且难以预测的时间序列数据集时会遇到困难。经过艰苦的过程尝试应用我的数据后，我终于训练了模型。在最后的拟合中，我使用了50个周期和“adam”优化器。

model.compile(loss="mean_squared_error",optimizer="adam")

# fit the model to the training datamodel.fit(x_train,y_train,epochs=50,batch_size=32)

plt.xticks(x, labels, rotation = 'vertical')plt.xlabel('Time')plt.ylabel('$ Price')plt.legend(loc=4, prop={'size': 14})plt.show()

5. XGBOOST模型

XGBoost是目前最流行的机器学习算法之一。无论手头的预测任务是回归还是分类。XGBoost以其比其他机器学习算法提供更好的解决方案而闻名。事实上，自从它诞生以来，它已经成为处理结构化数据的“最新技术”机器学习算法。然而，在这种情况下，我们将在时间序列数据上使用它。因此，模型需要从日期时间索引创建时间序列特征 – 用于在预测时与其目标价格标签一起使用。不幸的是，最终模型表现不佳。

6. 结论

最终结果如下所示。长短期记忆模型在处理像比特币价格这样波动大且难以预测的数据时，被证明是最有效的。这个比特币数据集包含了极其波动和异常的时间序列数据。因此，我发现模型在预测最近439天的价格时遇到了困难，我并不感到惊讶。此外，我承认我本可以选择更好、更明智的参数，以便让这些模型和库的结果更公平。然而，我认为LSTM模型的低RMSE证明了神经网络在机器学习中的强大能力。我期待在未来更深入地探索RNN在金融时间序列数据中的应用！

ax.bar(modelz,nums)plt.xlabel('Models')plt.ylabel('RMSE')plt.title('RMSE of the Models')plt.show()plt.show()

关于分析师

在此对Kechen Zhao对本文所作的贡献表示诚挚感谢。她在墨尔本大学完成了学业，获得应用数学与统计本科学位，并进一步深造获得数据科学研究生学历。Kechen Zhao在软件方面有着深厚的技能，特别擅长使用R 语言、Python和Java。在专业领域，他尤其擅长机器学习、数据采集、分析和处理以及数学建模和预测。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

【视频讲解】Xgboost、ARIMA 和 Prophet对国际牛肉市场市场份额数据、比特币价格时间序列预测

本文将通过视频讲解，展示如何用Xgboost、ARIMA 和 Prophet对国际牛肉市场市场份额数据时间序列预测，并结合一个Python# ARIMA、XGBOOST、PROPHET和LSTM预测比特币价格实例的代码数据，为读者提供一套完整的实践数据分析流程。

摘要

任务/目标

数据源准备

特征转换和处理

模型构建

数据划分与模型构建

数据划分

12个月预测

6个月预测

模型选择

ARIMA模型概述

基础模型建设

基础模型表现

特征筛选与模型优化

季节性特征的影响

特征重要性评估

特征选择示例

模型训练与优化

特征集选择与季节性数据的影响

模型对比与优化

模型表现评估

模型表现与可视化

Xgboost

ARIMA:

Prophet:

模型选择与预测应用

模型比较与最终决策

模型应用

预测的局限性与实际应用

R语言泊松Poisson回归模型分析案例

通过ARIMA、XGBOOST、PROPHET和LSTM预测比特币价格

随时关注您喜欢的主题

测试模型的标准程序

1. 探索性数据分析（EDA）