R语言分层线性模型案例

有许多分层数据的例子。例如,地理数据通常按层次分组,可能是顶级的全球数据,然后按国家和地区分组 。一个生物学的例子是按物种分组的动物或植物的属性,或者属于一个级别的属性,然后是家族(例如,参见蓝山雀的Jarrod Hadfield的数据集)。一个金融的例子可能是按行业分组的特定国家的公司(例如,见Pak-Wing Fok等人使用分层多因素模型分析信贷组合风险的论文))。天体物理学的例子可能是由星系类型(椭圆形,螺旋形)形成恒星的速率。一个商业例子可能是业务部门和细分的员工满意度(参见Whitener Do的文章 )。每个学科都有许多例子,其中观察以某种形式的层次结构进行分组。

在这里,我想解释使用一个简单的例子, 如何使用R来构建分层线性模型。我在整个三组中使用简单的一维数据集。在每个组内,自变量x和因变量y之间存在强正关系。 

这就是数据的样子。这些组有不同的颜色 。 在本文的其余部分,我将展示如何使用层次模型来模拟这种情况,该模型确实考虑了组信息。

Gelman建议的分层线性模型的一个包是arm,它具有与lm()函数非常相似的函数lmer()。

结果显示在这里。我有三个图,第一个是截距(alpha)依赖于组,第二个是斜率(β)依赖于组,第三个是截距和斜率都取决于组。你可能在想为什么不只是做三个单独的线性回归,因为第三个例子产生的系数非常接近于此。原因是基于这样的假设:alphas和beta是从顶级分布中提取的,因此是相关的。这意味着我们可以在组之间汇集信息,如果我们为其中一个组提供的数据非常少 。 

术语是 回归系数是“固定效应”,组级别称为“随机效应”。

结果如下所示。 每组只有一个单独的线性回归。对于蓝色和红色组,线条在大多数情况下非常适合数据,但对于只有三个数据点的绿色组,线条遍布整个地方,因为没有任何先验信息,估计数据的斜率和偏移量非常不确定。右侧的图表显示 因为该模型假设所有三组的斜率和偏移都是从一个公共分布中得出的,所以可以合理地假设斜率是正的。我们知道这适用于这个例子,因为我们设计了数据生成过程。

非常感谢您阅读本文,有任何问题请在下面留言!

点击这里给我发消息

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498