R语言基于协方差的结构方程拟合的卡方检验

在评估结构方程模型的拟合，很常见的应用是研究χ2进行测试

由Kaizong Ye，Liao Bao撰写

因为在给定足够大的样本量的情况下，它几乎总会检测出模型与数据之间的统计上的显着差异。

可下载资源

完整程序、数据和文档（word）

因为，我们的模型几乎总是数据的近似值。如果我们的模型的协方差矩阵实际上匹配抽样变异中的样本协方差矩阵，该χ2 无论样本量多大，该检验在统计学上均无统计学意义。

简单介绍一下卡方检验。

01 什么是卡方检验：

卡方检验就是检验两个变量之间有没有关系。
以运营为例:

卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别；
不同城市级别的消费者对买SUV车有没有什么区别；

如果有显著区别的话，我们会考虑把这些变量放到模型或者分析里去。

02 投硬币

那我们先从一个最简单的例子说起。
1）根据投硬币观察到的正面，反面次数，判断这个硬币是均衡的还是不均衡。
现在有一个正常的硬币，我给你投50次，你觉得会出现几个正面，几个反面？

按照你的经验你会这么思考，最好的情况肯定是25个正面，25个反面，
但是肯定不可能这么正正好好的，嗯，差不多28个正面，22个反面吧；
23个正面，27个反面也可能的，
但是10个正面，40个反面肯定不可能的，除非我运气真的那么碰巧。

你上面的这个思维方式，就是拿已经知道的结果(硬币是均衡的，没有人做过手脚)，推测出会出现的不同现象的次数。

而卡方检验是拿观察到的现象(投正面或反面的次数或者频数)，来判断这个结果(硬币是不是均衡的)。

因为到大样本量，从业人员往往依赖于其他拟合指数，如RMSEA，CFI和TLI-所有这些都是基于χ 2。在lavaan中，您会自动使用置信区间和p值对RMSEA进行紧密拟合测试。这个测试实际上使用χ2分布。

RMSEA的公式为：

其中，χ2是模型的检验统计量，dF是模型自由度，N是样本量。

课程

R语言数据分析挖掘必知必会

从数据获取和清理开始，有目的的进行探索性分析与可视化。让数据从生涩的资料，摇身成为有温度的故事。

立即参加 ➜

如果你的模型拟合数据完美，分子为零；这是标准的假设χ 2χ2-test测试。如果我们在RMSEA进行测试中，使用χ 2参数对应于RMSEA为0.05的分布。Lavaan将测试结果报告为拟合统计之一。

那么这对我们有什么帮助呢？非中心参数（λ ）在lavaan的RMSEA测试实际上是χ 2 – d ˚Fχ2-dF对应于RMSEA为0.05的值。

因此，对于测试，λ 是：

对于中等拟合的测试，λ 是：

请注意，lavaan的处理方式可能有所不同。

因此，给定模型的自由度和样本量，我们可以计算出非中心性参数（λ ）。给定λ中，χ2 值和模型的自由度，我们可以计算p值进行测试。

R的语法是：

pchisq(Chi-sq-value, degrees-of-freedom, non-centrality-parameter, FALSE)

示范

 # 具有HolzingerSwineford1939数据集的双因子模型的模型语法
writeLines(syntax <- paste(
  paste("g =~", paste0("x", 1:9, collapse = " + ")),
  # paste("visual =~", paste0("x", 1:3, collapse = " + ")),
  paste("textual =~", paste0("x", 4:6, collapse = " + ")),
  paste("speed =~", paste0("x", 7:9, collapse = " + ")),
  sep = "\n"
))

g =~ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9
textual =~ x4 + x5 + x6
speed =~ x7 + x8 + x9

最受欢迎的见解

1.Matlab马尔可夫链蒙特卡罗法（MCMC）估计随机波动率（SV，Stochastic Volatility）模型

2.基于R语言的疾病制图中自适应核密度估计的阈值选择方法

3.WinBUGS对多元随机波动率模型：贝叶斯估计与模型比较

4.R语言回归中的hosmer-lemeshow拟合优度检验

5.matlab实现MCMC的马尔可夫切换ARMA – GARCH模型估计

6.R语言区间数据回归分析

7.R语言WALD检验 VS 似然比检验

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI，NRI指标

运行模型并报告拟合度。仅报告统计信息：

 

lavaan (0.5-23.1097) converged normally after  25 iterations

  Number of observations                           301

  Estimator                                         ML
  Minimum Function Test Statistic               42.291
  Degrees of freedom                                21
  P-value (Chi-square)                           0.004

Root Mean Square Error of Approximation:

  RMSEA                                          0.058
  90 Percent Confidence Interval          0.032  0.083
  P-value RMSEA <= 0.05                          0.276

卡方统计意义显着，该完美拟合检验表明，由于样本的变异性。

默认的卡方检验：

pchisq 

[1] 0.003867178

使用上面的公式计算紧密度测试的非中心参数：.0025乘以模型自由度乘以样本大小-1

 ncp.close  

[1] 15.75

计算紧密拟合的卡方检验：

pchisq 

[1] 0.2740353

紧密契合度测试的p值为.27，接近lavaan报告的值。

如果我们降低标准以进行中等拟合的卡方检验：.0064乘以模型自由度乘以样本大小-1

 ncp.med  

[1] 40.32

pchisq 

[1] 0.9199686

我们在模型中观察模型隐含的协方差矩阵的可能性为92％。非常好。

最后，SEM从业者通常报告χ 2-test，但通常希望该测试能够检测到模型规范错误，因此在实践中经常将其忽略。

PS：潜在变量建模的另一种方法是PLS路径建模。这是一种基于OLS回归的SEM方法。

MacCallum, R. C., Browne, M. W., & Sugawara, H. M. (1996). Power analysis and determination of sample size for covariance structure modeling. Psychological Methods, 1(2), 130–149. https://doi.org/10.1037/1082-989X.1.2.130 ↩

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！