我们首先介绍扩展 Rasch 模型的方法论,然后是一般程序描述和应用主题,包括简单的 Rasch 模型、评级量表模型、部分信用模型及其线性扩展。
这种线性结构的结合允许对协变量的影响进行建模,并能够分析重复的分类测量。
可下载资源
Rost (1999) 在他的文章中声称,“尽管 Rasch 模型已经存在了这么长时间,但目前 95% 的心理学测试仍然是使用经典测试理论的方法构建的”。
那么,教育测量(Educational Measurement)到底是干什么的呢?实际上,教育测量要做的事儿就是对各种与教育相关的事物进行量化,给这些事物指派数字,最终来实现不同的教育决策(例如:选拔、评价、因材施教等)。以评价为例,我们可以通过各种不同形式的“考试”把学生的学习表现量化,用数字或者等级来代表,进而评价学生的学习效果。我们也可以通过对老师平时的教学行为进行量化,用数字或者等级来代表,来评价老师的教学效果。中国著名心理学家张厚粲老师说,“一个人的经验再丰富,也难免带有一定的局限性。再好的售货员不用尺或秤,而仅凭经验卖布卖糖时也会出错”。教育测量学就是希望可以用科学方法保证试卷的质量,确保可以精准地测量与教育相关的事务,保证根据分数做出的决策是合理的、公平的。
在教育测量学中,衡量测评工具最重要的两个指标是信度(reliability)和效度(validity)。其中,信度是指这个测量工具要可靠、稳定地测查我们关注的维度,比如:学生的学科能力。效度是指这个测量工具确实是在测试我们所关注的维度,而不是其他不相关的维度。比如:数学考试就是测试学生的数学能力,而不是学生的英语能力。这两个概念,会在我们后续的文章中为大家详细介绍。
基本上,他引用了很少使用 Rasch 模型 (rm) 的以下原因: 原始形式的 Rasch 模型 (Rasch 1960) 仅限于二分项,对于实际测试目的而言,可以说限制性太强。
因此,研究人员应该关注扩展的 Rasch 模型。
除了基本的 rm,可以计算的模型有:线性逻辑检验模型 (Scheiblechner 1972)、评级量表模型 (Andrich 1978)、线性评级量表模型 (Fischer and Parzer 1991)、部分信用模型(Masters 1982)和线性部分信用模型(Glas 和 Verhelst 1989;Fischer 和 Ponocny 1994)。
扩展 Rasch 模型
一般表达
Andersen (1995) 推导出以下表示,这些表示基于 Rasch 对多组数据的一般表达式。数据矩阵表示为 X,行中的人 v 和列中的项目 i。总共有 v = 1, …, n 个人和 i = 1, …, k 项。数据矩阵 X 中的单个元素表示为 xvi。此外,每个项目 i 都有一定数量的响应类别,用 h = 0, …, mi 表示。对项目 i 的响应 h 的相应概率可以根据以下两个表达式导出(Andersen 1995):
或者
这里,φh 是项目参数的评分函数,θv 是一维人参数,βi 是项目参数。在等式 1 中,ωh 对应于类别参数,而在等式 2 中,βih 是项目类别参数。
扩展 Rasch 模型的表示
对于二分项的普通 Rasch 模型,等式 1 简化为
主要假设,也适用于本文提出的概括,是:潜在特征的单维性、原始分数的充分性、局部独立性和平行项目特征曲线 (iccs)。相应的解释可以在 Fischer (1974) 中找到,在 Fischer (1995a) 中可以找到数学推导和证明。
对于二分项,Scheiblechner (1972) 提出了(更受限制的)线性逻辑检验模型 (lltm),后来由 Fischer (1973) 形式化,通过将项目参数拆分为线性组合
请注意,项目 i 和操作 j 的权重 wij 必须先验地固定。关于认知操作的进一步阐述可以在 Fischer (1974, p. 361ff.) 中找到。因此,从这个角度来看,lltm 比 Rasch 模型更简洁。
不过,还有另一种看待 lltm 的方法:基本 Rasch 模型在重复测量和组对比方面的概括。需要注意的是,两种类型的重新参数化也适用于线性评级量表模型(lrsm)和线性部分信用模型(lpcm),相对于下面介绍的基本评级量表模型(rsm)和部分信用模型(pcm) . 关于 lltm,Fischer (1974) 已经介绍了将其用作 Rasch 模型的推广以进行重复测量的可能性。在随后的几年中,这一建议得到了进一步的阐述。
在这一点上,我们将专注于 Rasch 模型的简单多分类推广,即 rsm (Andrich 1978),其中每个项目 Ii 必须具有相同数量的类别。对于等式 1,可以将 φh 设置为 h,其中 h = 0, …, m。由于在 rsm 中项目类别的数量是恒定的,因此使用 m 而不是 mi。因此,由此得出
随时关注您喜欢的主题
具有 k 个项目参数 β1, …, βk 和 m + 1 个类别参数 ω0, …, ωm。此参数化导致对单个项目的响应类别 Ch 进行评分。项目参数可以像方程 4 中那样以线性组合进行拆分。最后,介绍了 Masters (1982) 开发的 pcm 及其线性扩展 lpcm (Fischer and Ponocny 1994)。pcm 为 h = 0, …, mi 的每个 Ii ×Ch 组合分配一个参数 βih。因此,恒定评分属性不能保留项目,此外,项目可以具有不同数量的响应类别,由 mi 表示。因此,pcm 可以被视为 rsm 的推广,并且人 v 对类别 h(项目 i)的响应的概率定义为
很明显,(6) 是 (2) 在 φh = h 方面的简化。至于lltm和lrsm,lpcm是通过重新参数化基本模型的item参数来定义的,即
应用示例
在以下小节中,提供了与不同模型和设计矩阵场景相关的各种示例。由于可理解性问题,数据集保持相当小。
示例 1:Rasch 模型
我们从一个基于 100×30 数据矩阵的简单 Rasch 模型开始示例部分。首先,我们估计项目参数,然后估计人员参数。
然后我们使用 Andersen 的 LR 检验与平均分割标准进行拟合优度:
我们看到模型拟合,并且该结果的图形表示(仅项目子集)。
> lrre
在图中通过带有置信椭圆的拟合优度图给出。
> plotGOF(lrres.rasch, beta.subset = c(14, 5, 18, 7, 1), tlab = "item", + conf = list(ia = FALSE, col = "blue", lty = "dotted"))
为了能够绘制置信椭圆,需要在计算 LR 测试时设置 se = TRUE。
示例 2:lltm 作为受限 Rasch 模型
对项目参数进行线性扩展的模型也可以看作是其底层基本模型的特例。事实上,下面提出的 lltm 并遵循 Scheiblechner (1972) 的原始想法,是一个受限的 rm,即与 Rasch 模型相比,估计参数的数量更小。数据矩阵 X 由 n = 15 个人和 k = 5 个项目组成。此外,我们指定具有特定权重元素 wij 的设计矩阵 W。
> retm <- LLTM(lt2, W) > summary(resm)
summary方法为基本参数和结果项目参数提供点估计和标准误差。请注意,项目参数始终根据等式 1 和 2 而不是 3 估计为容易度参数。
示例 3:rsm 和 pcm
同样,我们现在提供一个人工数据集,其中 n = 300 人,k = 4 个项目;他们每个人都有 m + 1 = 3 个类别。我们从 rsm 的估计开始,随后,我们计算相应的类别交叉参数。
> thresholds(resm)
位置参数基本上是项目难度,阈值是图 4 中给出的 icc 图中类别曲线相交的点:
> plotICC(res.rsm, mplot = TRUE, legpos = FALSE, ask = FALSE)
rsm 将所有项目的阈值距离限制为相同。使用 pcm 可以放宽这个强假设。结果以人员-项目地图表示(参见图 5)。
> res.pcm <- PCM(pcmdat2) > plotPImap(res.pcm, sorted = TRUE)
在估计人员参数后,我们可以检查项目拟合统计信息。
itemfit(pcm)
比较 rsm 和 pcm 的似然比检验表明 pcm 提供了更好的拟合。
> pvalue <- 1 - pchisq(lr, df)
用于在不同组中重复测量的 lpcm
最复杂的示例是指具有两个测量点的 lpcm。此外,对于治疗是否有效的假设也很有趣。相应的对比是下面 W 中的最后一列。首先,指定数据矩阵 X。我们假设一个由 k = 3 个项目组成的人工测试,该测试向受试者展示了两次。X 中的前 3 列对应于第一个测试场合,而后 3 列对应于第二个场合。通常,前 k 列对应于第一个测试场合,接下来的 k 列对应于第二个测试场合,依此类推。总共有 n = 20 个科目。其中,前10人属于第一组(如对照组),后10人属于第二组(如实验组)。这由组向量指定:
> grouplpcm <- rep(1:2, each = 10)
同样,W 是自动生成的。通常,对于此类设计,W 的生成首先包括项目对比,然后是时间对比,最后是除第一个测量点之外的组主效应(由于可识别性问题,如前所述)。
> rm <- LPCM > model.matrix
参数估计如下:
> coef
检验 η 参数是否等于 0 与那些涉及项目的参数(在本例中为 η1,…,η8)几乎无关。但是对于其余的对比,H0 : η9 = 0(意味着没有一般时间效应)不能被拒绝(p = .44),而假设 H0 : η10 = 0 在应用 z 时必须被拒绝(p = .004) -检验。这表明在测量点上存在显着的实验效果。如果用户想要执行额外的检验,例如两个 η 参数的等价性的 Wald 检验,可以应用 vcov 方法来获得方差-协方差矩阵。
讨论与展望
cml 估计方法与 em 算法相结合,也可用于估计混合 Rasch 模型 (MIRA)。这种模型背后的基本思想是扩展的 Rasch 模型适用于个体的亚群,但每个亚群具有不同的参数值。
在 Rasch 模型中,项目辨别参数 αi 始终固定为 1,因此它不会出现在基本方程中。2-pl 模型可以通过 ltm 包进行估计(Rizopoulos 2006)。然而,Verhelst 和 Glas (1995) 制定了单参数逻辑模型 (oplm),其中 αi 不会因项目而异,但不等于 1。估计 oplm 的基本策略是一个三步法:首先,计算 Rasch 模型的项目参数。然后,在一定的限制条件下计算判别参数。最后,使用这些判别权重,oplm 的项目参数是使用 cml 估计的。这是 Rasch 模型在不同斜率方面更灵活的版本。
对不同数量的项目类别的概括、允许引入项目协变量和/或趋势的线性扩展以及可选的组对比是在测试中检查项目行为和个人表现时的重要问题。这提高了 irt 模型在各种应用领域的可行性。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!