R语言对混合分布中的不可观测与可观测异质性因子分析

今天上午,在课程中,我们讨论了利率制定中可观察和不可观察异质性之间的区别(从经济角度出发)。

为了说明这一点,我们看了以下简单示例。让  X 代表一个人的身高。考虑以下数据集

 在这里,关注变量是给定人的身高,

如果我们看直方图,我们有


课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程 ➜

我们可以假设我们具有高斯分布吗?

在这里,如果我们拟合高斯分布,将其绘制出来,并添加基于核的估计量,我们将得到

如果看那条黑线,可能会想到一种混合分布,例如

当我们有一个获得混合分布不可观察的异质性因子:概率 p1,一个随机变量  ​ ,概率p2,一个随机变量  ​ 。我们可以使用例如

 如果我们绘制两个高斯分布的混合图,我们得到

不错。实际上,我们可以尝试使用自己的代码最大限度地提高可能性,

在这里,我们包括一些约束,以保证概率属于单位间隔,并且方差参数保持正值。

进一步来说,如果我们假设基础分布具有相同的方差,即

在这种情况下,我们必须使用之前的代码,并进行一些小的更改,

如果我们不能观察到异质性因素,这就是我们可以做的。我们实际上在数据集中有一些信息。例如,我们具有人的性别。现在,如果我们查看每个性别的身高直方图,以及基于内核的每个性别的身高密度估计量,

因此,看起来男性的身高和女性的身高是不同的。也许我们可以使用实际观察到的变量来解释样本中的异质性。在形式上,这里的想法是考虑具有可观察到的异质性因素的混合分布:性别,

现在,我们对以前称为类[1]和[2]的解释是:男性和女性。在这里,估算参数非常简单,

如果我们绘制密度,我们有

如果再次假设相同的方差怎么办?即,模型变为

​然后,一个自然的想法是根据以前的计算得出方差的估计量

再一次,可以绘制相关的密度,

现在,如果我们仔细考虑一下我们所做的事情,那仅仅是对一个因素(人的性别)的线性回归,

  

实际上,如果我们运行代码来估算此线性模型,

我们得到的均值和方差的估计与之前获得的估计相同。因此,正如今天上午在课堂上提到的,如果您有一个不可观察的异质性因子,我们可以使用混合模型来拟合分布,但是如果您可以得到该因子的替代,这是可观察的,则可以运行回归。


可下载资源

​非常感谢您阅读本文,如需帮助请联系我们!


关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。


随时关注您喜欢的主题

在wechat上关注我们

最新洞察

技术干货

Leave A Reply

电子邮件地址不会被公开。

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498
error: Content is protected