stata如何处理结构方程模型(SEM)中具有缺失值的协变量

本周我正和一位朋友讨论如何在结构方程模型(SEM)软件中处理具有缺失值的协变量。

我的朋友认为某些包中某些SEM的实现能够使用所谓的“完全信息最大可能性”自动适应协变量中的缺失。在下文中,我将描述我后来探索Stata的sem命令如何处理协变量中的缺失。

为了研究如何处理丢失的协变量,我将考虑最简单的情况,其中我们有一个结果Y和一个协变量X,Y遵循给定X的简单线性回归模型。首先我们将模拟一个大数据集,所以我们知道真正的参数值:

这里真正的截距参数为0,真实斜率参数为1.残差误差为方差1。接下来,让我们设置一些缺少的协变量值。为此,我们将使用缺失机制,其中缺失的概率取决于(完全观察到的)结果Y.这意味着缺失机制将满足所谓的随机假设缺失。具体来说,我们将根据逻辑回归模型计算观察X的概率,其中Y作为唯一的协变量进入:

在没有缺失值的情况下,sem命令默认使用最大似然来估计模型参数。

但是sem还有另一个选项,它将使我们能够使用来自所有10,000条记录的观察数据来拟合模型。从命令行,我们可以通过以下方式选择它:

估计现在是无偏的。

因此,我们获得无偏估计(对于此数据生成设置),因为Stata的sem命令(在此正确)假设Y和X的联合正态性,并且缺失满足MAR假设。

非正态X
让我们现在重新运行模拟,但现在让X在一个自由度上遵循卡方分布,通过平方rnormal()绘制:

使用缺少值选项运行sem,我们获得:

现在我们再次有偏差估计,因为Y和X的联合常态假设不再成立。因此,如果我们使用此选项,当我们缺少协变量时,我们会发现联合正态假设是至关重要的。

完全随机缺失


让我们最后一次运行模拟,再次使用X卡方形分布,但现在X随机完全丢失(MCAR):

尽管联合正态性假设被违反,现在我们再次进行无偏估计。我认为这是因为当数据是MCAR时,即使违反了正态性假设,也可以一致地估计均值和协方差结构.


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498