R语言基于Bootstrap的线性回归预测置信区间估计方法

我们知道参数的置信区间的计算,这些都服从一定的分布(t分布、正态分布),因此在标准误前乘以相应的t分值或Z分值。

由Kaizong Ye,Liao Bao撰写

但如果我们找不到合适的分布时,就无法计算置信区间了吗?

幸运的是,有一种方法几乎可以用于计算各种参数的置信区间,这就是Bootstrap 法。

本文使用BOOTSTRAP来获得预测的置信区间。我们将在线性回归基础上讨论。

这是一个单点预测。当我们想给预测一个置信区间时,预测的置信区间取决于参数估计误差。

预测置信区间

让我们从预测的置信区间开始

蓝色值是通过在我们的观测数据库中重新取样获得的可能预测值。值得注意的是,在残差正态性假设下(回归线的斜率和常数估计值),置信区间(90%)如下所示:

在这里,我们可以比较500个生成数据集上的值分布,并将经验分位数与正态假设下的分位数进行比较,


R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间

阅读文章


可以看出,经验分位数与正态假设下的分位数是可以比较的。

感兴趣变量的可能值

现在让我们看看另一种类型的置信区间,关于感兴趣变量的可能值。这一次,除了提取新样本和计算预测外,我们还将在每次绘制时添加噪声,以获得可能的值。


随时关注您喜欢的主题


在这里,我们可以(首先以图形方式)比较通过重新取样获得的值和在正态假设下获得的值,

数值上给出了以下比较

这一次,右侧有轻微的不对称。显然,我们不能假设高斯残差,因为有更大的正值,而不是负值。考虑到数据的性质,这是有意义的(制动距离不能是负数)。

然后开始讨论在供应中使用回归模型。为了获得具有独立性,有人认为必须使用增量付款的数据,而不是累计付款。

可以创建一个数据库,解释变量是行和列。

然后,我们可以从基于对数增量付款数据的回归模型开始,该模型基于对数正态模型

这与链式梯度法的结果略有不同,但仍然具有可比性。我们也可以尝试泊松回归(用对数链接)

预测结果与链式梯度法得到的估计值吻合。克劳斯·施密特(Klaus Schmidt)和安吉拉·温什(Angela Wünsche)于1998年在链式梯度法、边际和最大似然估计中建立了与最小偏差方法的联系。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498