R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间

增量法使我们具有(渐近)正态性,因此一旦有了标准偏差,便可以得到置信区间。

由Kaizong Ye,Sherry Deng撰写

考虑简单的泊松回归poiss01.gif​。给定的样本poiss02.gif​,其中poiss03.gif​​,目标是导出用于一个95%的置信区间poiss04.gif​给出poiss05.gif​,其中poiss04.gif​是预测。

因此,我们要导出预测的置信区间,而不是观测值,即下图的点

最大似然估计http://freakonometrics.hypotheses.org/files/2016/11/poiss07.gif​。

,Fisher信息来自标准最大似然理论。

http://freakonometrics.blog.fre <br /> <br /> e.fr/public/latex/poiss21.gif



这些值的计算基于以下计算

在对数泊松回归的情况下,


热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程



让我们回到最初的问题。

线性组合的置信区间

获得置信区间的第一个想法是获得置信区间http://freakonometrics.hypotheses.org/files/2016/11/poiss100.gif​(通过取边界的指数值)。渐近地,我们知道

因此,方差矩阵的近似将基于通过插入参数的估计量而获得。
然后,由于作为渐近多元分布,参数的任何线性组合也将是正态的,即具有正态分布。所有这些数量都可以轻松计算。首先,我们可以得到估计量的方差

因此,如果我们与回归的输出进行比较,

根据这些值,很容易得出线性组合的标准偏差,

一旦我们有了标准偏差和正态性,就得出了置信区间,然后,取边界的指数,就得到了置信区间

基于该技术,置信区间不再以预测为中心。

增量法

实际上,使用表达式作为置信区间不会喜欢非中心区间。因此,一种替代方法是使用增量方法。我们可以使用一个程序包来计算该方法,而不是在理论上再次写一些东西,

增量法使我们具有(渐近)正态性,因此一旦有了标准偏差,便可以得到置信区间。

通过两种不同的方法获得的数量在这里非常接近

bootstrap技术

第三种方法是使用bootstrap技术基于渐近正态性(仅50个观测值)得出这些结果。我们的想法是从数据集中取样,并对这些新样本进行log-Poisson回归,并重复很多次数,


可下载资源

​非常感谢您阅读本文,如需帮助请联系我们!


关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。


 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498