R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

贝叶斯回归分位数在最近的文献中受到广泛关注,本文实现了贝叶斯系数估计和回归分位数(RQ)中的变量选择,带有lasso和自适应lasso惩罚的贝叶斯。

本文还包括总结结果、绘制路径图、后验直方图、自相关图和绘制分位数图的进一步建模功能。

由Kaizong Ye,Weilong Zhang撰写

回归分位数(RQ)由(Koenker和Gilbert,1978)提出,将感兴趣的结果的条件分位数作为预测因子的函数来建模。

自引入以来,分位数回归一直是理论界非常关注的话题,也在许多研究领域得到了大量的应用,如计量经济学、市场营销、医学、生态学和生存分析(Neelon等,2015;Davino等,2013;Hao和Naiman,2007)。

×

一、研究背景

回归分析一自以来都是社会科学定量研究领域的重点内容,使用回归分析的基本目的是为了揭示因变量和自变量之间的关系,模型主要是条件均值模型。在实际应用中我们会发现条件均值模型具有许多的局限性,通常在模型中需要假设随机扰动项是服从均值为零且同方.差的分布。但是在实际生活中,这些假设是很难被满足的,为了弥补普通最刁仁乘法在回归分析中的缺陷,Koenker和Bassett(1978)将均值回归模型扩展到了因变量的条件分位数模型,首次提出了分位数回归的思想。

随着贝叶斯推理在广义线性模型的使用越来越广泛的时候,研究者们发现贝叶斯方法相对于古典推断存在很大的优势。MCMC方法的应用也越来越广泛,即使是在复杂的情况下,MCMC方法依然可以获得人们感兴趣的所有参数的后验分布。结合这些优点,贝叶斯理论便能与分位数回归完美的结合起来,很好的发展了分位数回归模型。

二、分位数回归

分位数回归(Quantile Regression)由Koenker和Bassett在1978年提出,它主要描述自变量X和因变量Y的分位数之间线性关系。设随机变量X的分布函数为F,对任意0<τ<1,称F-1(τ)=inf{x:F(x)≥τ}为X的τ-分位数。

三、非對称拉普拉斯分布(LAD)

定义:称随机变量X服从非对称普拉斯分布,若其密度函数为:,记为X~ALD(μ,σ,τ),对应的分位数函数为:机变量X在τ处的分位数等于位置参数μ,即F-1(x;μ,σ,τ)|x=τ=μ,这是ALD可以作为分位数回归模型误差分布的重要依据。

四、贝叶斯估计的基本原理

(1)贝叶斯定理

对于给定的观测数据集y,β的条件分布为:p(β|y)=p(y|β)p(β)/p(y),由于当样本数据给定时p(y)为常数,与参数β无关,因此上式可以写为:p(β|y)∝p(y|β)p(β),上式称为贝叶斯定理,p(β)为参数β的先验信息。给定y下的β的似然函数为:L(β|y)=∏i=1np(yi|β)=p(y1,y2,…,yn|β)=p(y|β),则贝叶斯定理可以写成:p(β|y)∝L(β|y)p(β)。

(2)后验分布

先验信息与样本信息相结合得到后验信息,后验密度综合了所有参数的先验信息和样本信息,是贝叶斯统计推断的基础,若后验密度非标准形式,其分布特征可以通过模拟抽样技术得到。

(3)MCMC方法

MCMC方法是从函数f(·)抽取一个马尔科夫链X1,X2,……,然后用抽样均值近似总体期望μ=Eπ(f(Xi))其中π为其稳定分布。如果密度函数f(x1,x2,…,xn)=f(X1)∏i=2f(xi|x1,x2,…,xi-1)等式的各个条件密度不可以自接模拟得到,或者参数分布函数是非标准形式,可以在非参数空间上构造一个马尔科夫链,使其稳定分布为目标分布,这样只要马尔科夫链收敛,其抽样均值就是来自目标分布的扣孵羊序列,这种刊时羊算法称为MCMC抽样算法。

五、分位数回归、ALO、贝叶斯估计相结合

求解分位数回归系数是最小化损失函数:。在模型:y=x’β+ε中假定ε~ALD(0,σ,τ),则y~ALD(x’β,σ,τ),则样本的似然函数为:则在特定的分位数τ下,(1)式的极小化损失函数与(2)式的极大化似然函数是等价的,因此分位数回归的参数估计值可以通过优化似然函数得到,由于(2)式连续但不可导,对参数求导没有解析解,在这种情况下采用MCMC模拟的方法得到参数的后验分布。评估系数和尺度参数的先验密度为f(β)、φ(σ),参数的联合后验密度为p(β,σ|y)∝L(yi;xi‘,σ,τ)f(β)φ(σ)。

参考文献

[1]曾惠芳,朱慧明.基于MCMC算法的贝叶斯分位回归计量模型及应用研[D]湖南大学,2011.


简介

假设我们有一个观察样本{(xi , yi);i = 1, 2, – -, n},其中yi表示因变量,xi表示协变量的k维矢量。

贝叶斯_分位数_回归

Tobit RQ为描述非负因变量和协变量向量之间的关系提供了一种方法,可以被表述为因变量的数据未被完全观察到的分位数回归模型。关于Tobit 分位数回归模型有相当多的文献,我们可以参考Powell(1986)、Portnoy(2003)、Portnoy和Lin(2010)以及Kozumi和Kobayashi(2011)来了解概况。考虑一下这个模型。

其中,yi是观察到的因变量,y∗i是相应的潜在的未观察到的因变量,y 0是一个已知的点。可以证明,RQ系数向量β可以通过以下最小化问题的解来持续估计

Yu和Stander(2007)提出了一种Tobit RQ的贝叶斯方法,使用ALD计算误差,并使用Metropolis-Hastings(MH)方法从其后验分布中抽取β。

真实数据实例

我们考虑用真实的数据例子。

免疫球蛋白G数据

这个数据集包括298名6个月到6岁儿童的免疫球蛋白G的血清浓度(克/升),Isaacs等人(1983)对其进行了详细讨论,Yu等人(2003)也使用了该数据集。为了说明问题,该数据集的贝叶斯分位数回归模型(可以拟合如下)。

摘要函数提供估计值和95%的置信区间

绘制数据,然后将五条拟合的RQ线叠加在散点图上。

图2:免疫球蛋白G数据的散点图和RQ拟合。

该图显示了298名6个月至6岁儿童的免疫球蛋白G的散点图。叠加在该图上的是{.05, .25, .50, .75, .95}的RQ线(左图)和 RQ线(左图)和RQ曲线(右图)。

图可以用来评估吉布斯采样向平稳分布的收敛情况。我们在图1中只报告了τ=0.50时每个参数的路径图和后验直方图。我们使用以下代码

可以通过生成路径图、后验直方图、自相关图来对Gibbs采样的绘制结果进行图形总结。路径和直方图,路径和自相关,直方图和自相关,以及路径、直方图和自相关。这个函数还有一个选项。在图3中,免疫球蛋白G数据系数的路径图表明,采样从后验空间的一个偏远区域跳到另一个区域的步骤相对较少。此外,直方图显示边际密度实际上是所期望的平稳的单变量常态。


Python贝叶斯回归分析住房负担能力数据集

阅读文章


图3:当τ=0.50时,免疫球蛋白G数据集的系数的路径和密度图。

前列腺癌数据

在本小节中,我们说明贝叶斯分位数回归在前列腺癌数据集(Stamey等人,1989)上的表现。该数据集调查了等待根治性前列腺切除术的病人的前列腺特异性抗原(lpsa)水平和八个协变量之间的关系。


随时关注您喜欢的主题


这些协变量是:癌症对数体积(lcavol)、前列腺的对数重量(lweight)、年龄(age)、良性前列腺的对数体积(lbph)、精囊侵犯(svi)、胶囊穿透的对数(lcp)、格里森评分(gleason)以及格里森评分4或5的百分比(pgg45)。

在本小节中,我们假设因变量(lpsa)均值为零,而预测因子已被标准化,均值为零。为了说明问题,我们考虑当τ=0.50时,贝叶斯lasso套索RQ(方法=”BLqr”)。在这种情况下,我们使用以下代码

模型法可用于确定回归中的活跃变量。 

相应的吉布斯采样的收敛性是通过生成样本的路径图和边际后验直方图评估的。因此,图可以用来提供一个关于吉布斯采样器收敛的图形检查,通过使用以下代码检查路径图和边际后验直方图。

上述代码的结果分别显示在图4和图5中。图4中的路径图显示,生成的样本迅速穿越了后验空间,图5中的边际后验直方图显示,条件后验分布实际上是所需的平稳单变量常态。 

小麦数据

我们考虑一个小麦数据集。这个数据集来自于国家小麦种植发展计划(2017)。这个小麦数据由11个变量的584个观测值组成。因变量是每2500平方米小麦产量增加的百分比。协变量是化肥尿素(U)、小麦种子播种日期(Ds)、小麦种子播种量(Qs)、激光平田技术(LT)、复合肥施肥(NPK)、播种机技术(SMT)、绿豆作物种植(SC)、作物除草剂(H)、作物高钾肥(K)、微量元素肥料(ME)。

下面的命令给出了τ=0.50时Tobit RQ的后验分布。

还可以拟合贝叶斯lassoTobit 分位数回归和贝叶斯自适应lassoTobit 分位数回归。当τ=0.50时,函数可以用来获得Tobit 分位数回归的后验平均值和95%的置信区间。

结论

在本文中,我们已经说明了在分位数回归(RQ)中进行贝叶斯系数估计和变量选择。此外,本文还实现了带有lasso和自适应lasso惩罚的贝叶斯Tobit 分位数回归。还包括总结结果、绘制路径图、后验直方图、自相关图和绘制定量图的进一步建模。

参考文献

Alhamzawi, R., K. Yu, and D. F. Benoit (2012). Bayesian adaptive lasso quantile regression. Statistical Modelling 12 (3), 279–297.

Brownlee, K. A. (1965). Statistical theory and methodology in science and engineering, Volume 150. Wiley New York.

Davino, C., M. Furno, and D. Vistocco (2013). Quantile regression: theory and applications. John Wiley & Sons.


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498