在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析

在绘制的时间序列中可以看到两个主要的季节性:每日和每周。我们在一天中有48个测量值,在一周中有7天,因此这将是我们用来对响应变量进行建模的自变量–电力负荷。

由Kaizong Ye,Weilong Zhang撰写

我们已经准备了一个文件,其中包含四个用电时间序列以进行分析。数据操作将由data.table程序包完成

将提及的智能电表数据读到data.table

×

模型


经典的线性回归模型假定因变量

与自变量
是线性形式:

其中,
通过最小二乘法获得。
加性模型扩展了线性模型:
其中,
是光滑函数,
通过backfitting 算法 [2-3]  获得。
广义加性模型是广义线性模型的扩展:
其中,
为线性预测值,
是非参数光滑函数 ,它可以是光滑样条函数 、核函数或者局部回归光滑函数 ,它的非参数形式使得模型非常灵活 ,揭示出自变量的非线性效应 。
模型不需要 
对 
的任何假设 ,由随机部分
 (random component) 、加性部分
(additive component) 及联结两者的连接函数
 (link function) 组成 ,反应变量
的分布属于指数分布族 ,可以是二项分布 、Poisson 分布 、Gamma 分布等。
模型中不必每一项都是非线性的 ,可以纳入线性等参数项 ,因为每个解释变量的关系如都用非参数拟合会出现计算量大 、过拟合等问题 ,有时因变量与某个预测变量的关系简化成参数形式会更便于解释 ,这样就出现了半参数广义加性模型 ( semi-parametric generalized additive models) ,其形式为 :

优缺点

1) 可以引入非线性函数
2) 非线性可能使得对
预测的更准确
  3) 因为是”加性的”,所以,线性模型的假设检验的方法仍然可以使用
  4) 因为是“加性”假设,所以GAMs中可能会缺失重要的交互作用
,只能通过手动添加交互项来弥补



使用GAM回归模型。将工作日的字符转换为整数,并使用recode包中的函数car重新编码工作日,以拟合一周中出现的情况:1.星期一,…,7星期日。

将信息存储在日期变量中,以简化工作。

让我们看一下用电量的一些数据并对其进行分析。


热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程

plot of chunk unnamed-chunk-6

在绘制的时间序列中可以看到两个主要的季节性:每日和每周。我们在一天中有48个测量值,在一周中有7天,因此这将是我们用来对响应变量进行建模的自变量–电力负荷。

训练我们的第一个GAM。通过平滑函数s对自变量建模,对于每日季节性,使用三次回归样条,对于每周季节性,使用P样条。

首先是其可视化功能。

未命名块9的块图

我们在这里可以看到变量对电力负荷的影响。在左图中,白天的负载峰值约为下午3点。

在上面的图中,我们可以看到在周末消费量减少了。让我们使用summary函数对第一个模型进行诊断。

EDF:估计的自由度–可以像对给定变量进行平滑处理那样来解释(较高的EDF值表示更复杂的样条曲线)。P值:给定变量对响应变量的统计显着性,通过F检验进行检验(越低越好)。\(R ^ 2 \)–调整后的R平方(越高越好)。我们可以看到R-sq。(adj)值有点低…

让我们绘制拟合值:

块未命名块11的图

我们需要将两个自变量的相互作用包括到模型中。

第一种交互类型对两个变量都使用了一个平滑函数。

R平方值表明结果要好得多。

似乎也很好,p值为0,这意味着自变量很重要。拟合值图:

未命名块15的块图

现在,让我们尝试上述张量积交互。这可以通过function完成te,也可以定义基本函数。

与以前的模型相似gam_2

非常相似的结果。让我们看一下拟合值:

未命名块18的块图

gam_2模型相比,只有一点点差异,看起来te更合身。

我们可以在这里看到R方略有上升。
让我们绘制拟合值:

块未命名块20的图

这似乎比gam_3模型好得多。

我们可以看到R平方比模型gam_4低,这是因为我们过度拟合了模型。证明GCV程序(lambda和EDF的估计)工作正常。

因此,让我们在案例(模型)中尝试ti方法。

然后使用t2

我还打印了最后三个模型的GCV得分值,这也是在一组拟合模型中选择最佳模型的良好标准。我们可以看到,对于t2相应模型gam_6,GCV值最低。

在统计中广泛使用的其他模型选择标准是AIC(Akaike信息准则)。让我们看看三个模型:

最低值在gam_6模型中。让我们再次查看拟合值。

未命名块25的块图

我们可以看到的模型的拟合值gam_4gam_6非常相似。可以使用软件包的更多可视化和模型诊断功能来比较这两个模型。

第一个是function gam.check,它绘制了四个图:残差的QQ图,线性预测变量与残差,残差的直方图以及拟合值与响应的关系图。让我们为它们制作模型gam_4gam_6

图块未命名块26

图块未命名块27

我们可以再次看到模型非常相似,只是在直方图中可以看到一些差异。


 该模型gam_6 有更多的“波浪形”的轮廓。因此,这意味着它对响应变量的适应性更高,而平滑因子更低。 

图块未命名块29

我们可以看到最高峰值是Daily变量的值接近30(下午3点),而Weekly变量的值是1(星期一)。

未命名块30的块图

再次可以看到,电力负荷的最高值是星期一的下午3:00,直到星期四都非常相似,然后负荷在减少(周末)。


可下载资源

​非常感谢您阅读本文,如需帮助请联系我们!


关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。


随时关注您喜欢的主题

在wechat上关注我们

最新洞察

技术干货

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498