Python基于ARIMA-LSTM模型的广州市新能源汽车销量预测-CSDN博客

Python基于ARIMA-LSTM模型的广州市新能源汽车销量预测

2025年8月21日 | 技术报告

做新能源汽车市场分析时，你是不是也遇到过这样的问题：用ARIMA预测总抓不住销量的突发波动，换LSTM又容易忽略长期增长趋势？单一模型总在“线性”和“非线性”之间顾此失彼。

Bingyi Yan

她在广州大学完成了软件工程专业的学习，现任中国电信广州分公司数据分析师。擅长Python、深度学习、数学建模、数据处理等。

联系我们

本文代码和数据资料已分享至会员群

加入会员群

但我们最近在广州市新能源汽车销量预测的项目里，把ARIMA和LSTM捏到了一起，结果让人惊喜——预测误差直接从18%砍到了10%！今天就拆解这个组合模型的底层逻辑，会员群内附代码和数据细节。

新能源汽车销量预测分析导览

基于Python实现的ARIMA-LSTM组合模型在广州市场的应用

融合百度指数与公共充电桩数据的创新预测方法

本研究聚焦广州市新能源汽车销量预测问题，创新性地将时间序列分析与深度学习方法相结合，提出ARIMA-LSTM组合模型

一、研究背景与意义

作为数据科学领域的从业者，我们深知精准的预测模型对产业发展的重要性。在去年为某汽车产业咨询项目提供服务时，我们发现新能源汽车销量预测不仅需要先进的算法支持，更要结合实际业务场景中的关键影响因素。这个项目最终形成的分析框架，正是我们今天要分享的核心内容。

随着全球对环境问题的重视和能源结构转型的推进，新能源汽车已成为汽车产业发展的必然趋势。广州市作为我国重要的汽车生产基地，其新能源汽车市场的发展态势对整个产业具有重要影响。

为什么需要预测新能源汽车销量？

全球变暖问题日益严峻，汽车尾气排放是主要诱因之一。推广新能源汽车不仅能减少排放，还是保障国家能源安全的重要举措。对广州市而言，准确预测新能源汽车销量能帮助企业制定生产计划、政府规划基础设施，推动产业健康发展。

研究目标

本研究创新性地引入百度指数（反映市场关注度）和公共充电桩数量（体现基础设施完善度）作为关键影响因素，通过数据挖掘与模型构建，为广州市新能源汽车产业发展提供科学的决策依据。

二、数据准备与特征分析

数据来源与采集

我们收集了四类数据：

广州市新能源汽车销量（2017.6-2024.2，乘联会）
广东省公共充电桩数量（2017.6-2024.2，中国电动汽车充电基础设施促进联盟）
广东省新能源汽车百度指数（2017.6-2024.2，百度指数）
广东省油价（2017.6-2024.2，东方财富网）

三、模型构建与实现

1. ARIMA模型：捕捉线性趋势

ARIMA模型通过差分处理使数据平稳，再利用自回归和移动平均捕捉时间序列特征。

图2：ARIMA(4,1,0)模型的拟合结果

# ARIMA模型关键代码实现 import pandas as pd import numpy as np from statsmodels.tsa.arima.model import ARIMA from statsmodels.tsa.stattools import adfuller # 读取销量数据 sales_data = pd.read_csv(‘guangzhou_ev_sales.csv’, parse_dates=[‘date’], index_col=’date’) # ADF检验函数 def adf_test(series): result = adfuller(series) print(f’ADF统计量: {result[0]}’) print(f’p值: {result[1]}’) print(‘临界值:’, result[4]) if result[1] <= 0.05: print("数据平稳（拒绝原假设）") else: print("数据不平稳（无法拒绝原假设）") # 对原始数据进行ADF检验 print("原始数据ADF检验结果：") adf_test(sales_data['sales']) # 进行二阶差分 sales_diff2 = sales_data['sales'].diff(2).dropna() print("\n二阶差分后ADF检验结果：") adf_test(sales_diff2) # 构建ARIMA(4,1,0)模型 model_arima = ARIMA(sales_data['sales'], order=(4, 1, 0)) result_arima = model_arima.fit() # 预测未来12个月销量 forecast_arima = result_arima.get_forecast(steps=12) forecast_values = forecast_arima.predicted_mean

模型选择依据：ADF检验显示，原始销量数据不平稳（p=0.967），经过二阶差分后变得平稳（p<0.001）。我们最终选择ARIMA(4,1,0)模型。

2. LSTM模型：处理非线性关系

LSTM（长短期记忆网络）能有效捕捉时间序列中的非线性特征和长期依赖关系。

图3：LSTM模型使用百度指数输入的预测结果

图4：LSTM模型使用公共充电桩输入的预测结果

图5：LSTM模型使用双输入的预测结果

3. ARIMA-LSTM组合模型：融合优势

组合模型先利用ARIMA捕捉线性趋势，再将其残差输入LSTM处理非线性部分。

图6：ARIMA-LSTM组合模型的预测结果

# ARIMA-LSTM组合模型关键代码 # 获取ARIMA模型的残差 arima_residuals = result_arima.resid.values.reshape(-1, 1) # 将残差与其他特征组合 combined_features = np.concatenate((scaled_data, arima_residuals), axis=1) # 准备组合模型的训练数据 X_combined, y_combined = create_dataset(combined_features, time_step) # 构建ARIMA-LSTM组合模型 model_combined = Sequential() model_combined.add(LSTM(64, return_sequences=True, input_shape=(X_combined.shape[1], X_combined.shape[2]))) model_combined.add(LSTM(10, return_sequences=False)) model_combined.add(Dropout(0.2)) model_combined.add(Dense(1)) model_combined.compile(optimizer=’adam’, loss=’mean_squared_error’) model_combined.fit(X_combined, y_combined, batch_size=32, epochs=50)

组合优势：该组合模型既保留了ARIMA模型对线性趋势的捕捉能力，又利用LSTM增强了模型对非线性关系的处理能力。

四、模型对比与结果分析

1. 模型精度对比

图7：不同模型的预测精度(MAPE)对比

模型类型	MAPE(%)	改进幅度
单一ARIMA模型	18.35%	基准模型
LSTM（百度指数）	16.01%	-12.75%
LSTM（公共充电桩）	14.88%	-18.91%
LSTM（两者组合）	14.06%	-23.38%
ARIMA-LSTM组合模型	10.01%	-45.45%

核心发现：ARIMA-LSTM组合模型在广州市新能源汽车销量预测中表现最佳，其平均绝对百分比误差仅为10.01%，明显优于单一模型。

2. 模型稳健性分析

图8：模型参数Dropout的敏感度分析

敏感度分析显示，当Dropout参数在0.1-0.3之间变化时，模型预测误差波动在3%以内，说明模型具有较好的稳健性。

3. 模型综合性能对比

模型类型	MAPE(%)	训练时间(秒)	模型复杂性	解释性
单一ARIMA模型	18.35	42	中等	高
LSTM（百度指数）	16.01	98	高	低
LSTM（充电桩）	14.88	102	高	低
LSTM（双输入）	14.06	110	高	低
ARIMA-LSTM组合	10.01	126	很高	中等

五、结论与建议

核心结论：研究表明，ARIMA-LSTM组合模型在广州市新能源汽车销量预测中表现最佳。这是因为该模型既保留了ARIMA捕捉线性趋势的优势，又通过LSTM增强了对非线性关系的处理能力。

关键建议

充电基础设施建设

加快充电基础设施建设，特别是在居民区和商业区合理布局公共充电桩。充电桩数量与销量高度正相关（相关系数0.798），完善充电网络可显著提升消费者信心。

市场推广策略

加强新能源汽车的市场推广，提高公众认知度（可通过监测百度指数变化评估推广效果）。百度指数与销量呈较强正相关（相关系数0.655），反映了市场关注度对销量的正向影响。

技术研发支持

持续支持新能源汽车技术研发，提升产品竞争力。重点发展电池技术、续航能力提升和智能驾驶功能，以技术进步推动产品性能提升和成本降低。

政策体系构建

制定长期稳定的政策支持体系，保障市场健康发展。通过财政补贴、购车优惠政策、免费停车等措施降低消费者购买成本，同时加强新能源汽车在公共交通领域的推广。

未来研究方向

引入更多影响因素：如政策变化、技术突破、竞品动态等外部变量
更大规模数据集：扩展至全国范围数据，检验模型的泛化能力
实时预测系统：开发可用于业务场景的实时销量预测系统
区域适应性研究：探索模型在不同地区（如一线与二三线城市）的适应性
多模型融合：尝试结合更多模型（如Prophet、XGBoost）进一步提升精度

先说说：为啥单一模型不够用？

新能源汽车销量这东西，太“调皮”了。既有政策推动下的稳步增长（线性趋势），又受充电桩建设速度、市场关注度这些因素的突发影响（非线性波动）。

纯ARIMA：像个“老学究”，擅长抓整体增长趋势，但对充电桩突然变多、百度指数猛涨这些“意外”反应慢，预测误差18.35%；
纯LSTM：像个“机灵鬼”，能捕捉非线性关系，但容易“忘本”，单独用百度指数时误差16.01%，加了充电桩数据降到14.06%，可还是不如组合起来强。所以我们想：能不能让“老学究”稳住基本盘，“机灵鬼”搞定突发状况？

组合模型的底层逻辑：1+1＞2

ARIMA和LSTM的融合，不是简单拼接，而是“各司其职”：

ARIMA先上：处理销量数据的线性趋势，算出预测值后，把“没抓到的部分”（残差）甩给LSTM；
LSTM接棒：拿着残差，再结合充电桩数量、百度指数这些“辅助信息”，把非线性波动补全。就像先画一条平滑的增长线，再用细节把折线的起伏填进去，最后误差降到10.01%也就不奇怪了。

手把手拆代码：从数据到预测的关键步骤

数据准备：哪些因素真的有用？

我们扒了4类数据（2017.6-2024.2）：

广州市新能源汽车销量（乘联会）
广东省公共充电桩数量（充电联盟）
广东省新能源汽车百度指数（百度指数）
广东省油价（东方财富网）

用Spearman相关性分析筛了下：

充电桩和销量相关系数0.798（高度正相关）
百度指数0.655（较强正相关）
油价才0.162（几乎没关系）

果断留前两个当“辅助变量”。

模型融合知识

ARIMA与LSTM组合优势

ARIMA模型擅长捕捉时间序列的线性趋势和短期相关性，而LSTM神经网络在处理非线性关系和长期依赖方面表现出色。将两者结合可以充分发挥各自优势，在复杂预测场景中通常能获得比单一模型更准确的结果。这种组合策略已广泛应用于经济预测、能源消耗预测和销售预测等领域。

搭ARIMA模型：先搞定线性趋势

ARIMA的核心是让数据“变稳”，我们用ADF检验测了下：

原始销量数据：p=0.967（不稳）
二阶差分后：p<0.001（稳了！）

最后选了ARIMA(4,1,0)，拟合效果如下：

# 关键代码片段
from statsmodels.tsa.arima.model import ARIMA
# 读数据
sales_data = pd.read_csv('guangzhou_ev_sales.csv', parse_dates=['date'], index_col='date')
# 二阶差分让数据平稳
sales_diff2 = sales_data['sales'].diff(2).dropna()
# 建模型
model_arima = ARIMA(sales_data['sales'], order=(4, 1, 0))
result_arima = model_arima.fit()

搭LSTM模型：抓非线性波动

LSTM的“记忆功能”适合处理复杂波动，我们用过去6个月的数据（销量+充电桩+百度指数）预测下个月：

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
# 数据标准化
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = scaler.fit_transform(sales_data[['sales', 'charging_piles', 'baidu_index']])
# 建模型
model_lstm = Sequential()
model_lstm.add(LSTM(64, return_sequences=True, input_shape=(6, 3))) # 6个月数据，3个特征
model_lstm.add(LSTM(10, return_sequences=False))
model_lstm.add(Dropout(0.2)) # 防过拟合
model_lstm.add(Dense(1))

单加百度指数时误差16.01%，单加充电桩14.88%，两个一起加降到14.06%，果然“人多力量大”。

最受欢迎的见解

组合模型：ARIMA+LSTM的“王炸”效果

把ARIMA的残差（没抓到的部分）喂给LSTM，相当于“查漏补缺”：

# 取ARIMA残差，和其他特征合并
arima_residuals = result_arima.resid.values.reshape(-1, 1)
combined_features = np.concatenate((scaled_data, arima_residuals), axis=1)
# 用新特征训练组合模型
model_combined = Sequential()
# 结构类似LSTM，输入特征多了1个（残差）
model_combined.add(LSTM(64, return_sequences=True, input_shape=(6, 4)))
...

结果误差直接干到10.01%！对比图一目了然：

各模型MAPE对比：

金融科技中的量化投资：LSTM、Wavenet与LightGBM的融合策略

分析LSTM、Wavenet和LightGBM在金融时序预测中的优劣，提出动态融合框架以捕捉市场非线性特征，应用于股票收益率预测

探索观点

我们还测了下稳健性，Dropout在0.1-0.3之间变，误差波动不到3%，模型够稳。

给广州新能源汽车市场的落地建议

从模型结果看，充电桩和市场关注度（百度指数）对销量影响真不小，咱们可以这么干：

充电桩赶紧建：居民区、商场多摆点，数据显示这是最直接的“销量助推器”；
推广要盯百度指数：搞活动后指数涨了，说明效果到位了；
政策得稳：别忽冷忽热，长期支持才能让市场有信心。

下次可以试试加政策文件、电池技术突破这些因素，说不定误差还能降。

（完整代码和数据已放社群，进群领走直接跑～）

每日分享最新报告和数据资料至会员群

加入会员群

关于会员群

本会员社群以垂直产业数据研究、深度行业报告分享、AI数据工具实操交流为核心定位；
入群即可解锁全行业数据内容免费阅读与下载权限，同步更新海内外一手优质研究报告文档与产业数据；
会员老用户享受专属 9 折续费优惠，可长期锁定社群全部权益；
为会员提供一对一免费 PDF 报告专属代找服务。

非常感谢您阅读本文，如需帮助请联系我们！

Python基于ARIMA-LSTM模型的广州市新能源汽车销量预测

Python基于ARIMA-LSTM模型的广州市新能源汽车销量预测

新能源汽车销量预测分析导览

一、研究背景与意义

研究目标

二、数据准备与特征分析

数据来源与采集

相关性分析与特征选择

三、模型构建与实现

1. ARIMA模型：捕捉线性趋势

2. LSTM模型：处理非线性关系

3. ARIMA-LSTM组合模型：融合优势

四、模型对比与结果分析

1. 模型精度对比

2. 模型稳健性分析

3. 模型综合性能对比

五、结论与建议

关键建议

充电基础设施建设

市场推广策略

技术研发支持

政策体系构建

未来研究方向

先说说：为啥单一模型不够用？

组合模型的底层逻辑：1+1＞2

手把手拆代码：从数据到预测的关键步骤

数据准备：哪些因素真的有用？

ARIMA与LSTM组合优势

搭ARIMA模型：先搞定线性趋势

搭LSTM模型：抓非线性波动

最受欢迎的见解

组合模型：ARIMA+LSTM的“王炸”效果

金融科技中的量化投资：LSTM、Wavenet与LightGBM的融合策略

给广州新能源汽车市场的落地建议

相关文章

Python基于ARIMA-LSTM模型的广州市新能源汽车销量预测

Python基于ARIMA-LSTM模型的广州市新能源汽车销量预测

新能源汽车销量预测分析导览

一、研究背景与意义

研究目标

二、数据准备与特征分析

数据来源与采集

相关性分析与特征选择

三、模型构建与实现

1. ARIMA模型：捕捉线性趋势

2. LSTM模型：处理非线性关系

3. ARIMA-LSTM组合模型：融合优势

四、模型对比与结果分析

1. 模型精度对比

2. 模型稳健性分析

3. 模型综合性能对比

五、结论与建议

关键建议

充电基础设施建设

市场推广策略

技术研发支持

政策体系构建

未来研究方向

先说说：为啥单一模型不够用？

组合模型的底层逻辑：1+1＞2

手把手拆代码：从数据到预测的关键步骤

数据准备：哪些因素真的有用？

ARIMA与LSTM组合优势

搭ARIMA模型：先搞定线性趋势

搭LSTM模型：抓非线性波动

最受欢迎的见解

组合模型：ARIMA+LSTM的“王炸”效果

金融科技中的量化投资：LSTM、Wavenet与LightGBM的融合策略

给广州新能源汽车市场的落地建议

相关文章

关注我们，永远不要错过任何见解。