R语言多元线性回归、ARIMA分析美国不同候选人对经济GDP时间序列影响

近段时间,美国总统大选引起了世界各国的关注。

共和党候选人唐纳德·特朗普和民主党候选人乔·拜登将角逐总统。

Yuanchang Luo撰写

两党候选人在金融贸易、经济金融治理以及防控措施等重点发展领域有着不同的立场和纲领。

不同的立场的候选人对美国甚至全世界的经济发展有着一定的影响,本文结合具体数据,定量分析不同候选人对美国经济发展的影响。

解决方案

任务/目标

根据美国各指标数据以及两位候选人的不同 政策,分析出对美国经济的影响。

数据源准备

在美国政府公开数据集上搜索数据,共 26 类, 并且用 GDP 来反映美国经济。得到数据后, 由于是时间序列数据,因此通过拉格朗日插值 法补充空值。并且,由于是美国政府公开的数 据集,因此默认异常值,即较大较小值是由实 际历史因素导致的,不作处理。

特征抽取

首先经过观察特征间的相关矩阵以及和因变量的相 关性,初步剔除 7 个与因变量相关性非常低且指标 间相关性较高的指标,使用剩余19个自变量作为 回归分析的指标。(剔除掉的指标:’美国个人收入 中位数’,’个人所得税(最高)’,’个人所得税(最低) ‘,’商品和服务出口’,’金融资产净收购’,’劳动力市场状 况指数’,’失业率’)

建模

多元线性回归,一般应用与多个特征指标的回 归问题。 在多元线性回归的过程中,除了考虑模型的 AIC 最小外,还需考虑模型间自变量相互的关 系对因变量的影响,即多重共线性,通过 VIF 来剔除相关自变量。 ARIMA,一般应用在时间序列领域上。 ARIMA 模型是指将非平稳时间序列转化为平 稳时间序列,然后将结果变量做自回归(AR) 和自平移(MA)。


视频

在Python和R语言中建立EWMA,ARIMA模型预测时间序列

探索见解

去bilibili观看

探索更多视频


视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

探索见解

去bilibili观看

探索更多视频


视频

时间序列分析模型 ARIMA-ARCH GARCH模型分析股票价格数据

探索见解

去bilibili观看

探索更多视频

模型优化

1.通过 VIF 准则剔除相关的自变量:

上图为 VIF 最初结果和最终结果。进一步筛选 7 个指标进行预测。

2.通过 AIC 准则选择最优模型

结合各因素的 t 检验以及模型的 AIC,通过向 前向后选择的方法,选择出最优的回归模型。

结合上图,确信此回归模型表现良好。

3.时间序列预测自变量

由于美国政府公开的数据截至到 19 年,而我 们需要 21 年 1 月份自变量的数据以次来预测 不同候选人当选对经济的影响,因此通过时间 序列对 5 个指标往后预测 5 季度的数值。


Python中的ARIMA模型、SARIMA模型和SARIMAX模型对时间序列预测

阅读文章


4.不同政策对特征的定量影响

结合不同候选人的政策,可以人为定性的分析 出对各特征的影响是增大还是减小,然后通过 平均 20 年的数据,算出各特征增大以及减小 的百分比均值,以此来估计影响的具体数值。 这样一来,对历史数据通过 ARIMA 模型得到 20 年的的数据,然后通过各候选人的不同政 策对指标的影响以及历史变动均值,就得到了 21 年四个季度各指标的具体数值,然后通过 多元回归所得方程,预测 21 年 4 个季度的 GDP 具体数值。


随时关注您喜欢的主题


项目结果 

多元回归方程:y= − 0.3478 − 0.08548x 2+1.579 × 10 −7 x 10 +4.653 × 10 −5 x 14+1.565 × 10 −5 x15+1.156x 19

结合对各指标的预测值,计算出不同候选人当 选对经济的影响:

可以看到,两位候选人的当选都会对美国经济有一定的提升,但拜登的当选无疑提升更大, 因此可以估计,拜登有更大的可能赢得此次大 选。评估效果不能只看经济影响,要综合考虑, 需要参考不同候选人的具体政策带来的影响, 以及不同党派不同群体对两位候选人的不同 态度。因此预测结果仅作为参考。


关于作者

在此对Yuanchang Luo对本文所作的贡献表示诚挚感谢,他在西北大学完成了应用统计硕士学位,专长数据挖掘、数据分析、机器学习等。

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds