R语言实现:混合正态分布EM最大期望估计法

因为近期在分析数据时用到了EM最大期望估计法这个算法,在参数估计中也用到的比较多。

然而,发现国内在R软件上实现高斯混合分布的EM的实例并不多,大多数是关于1到2个高斯混合分布的实现,不易于推广,因此这里分享一下自己编写的k个高斯混合分布的EM算法实现请大神们多多指教。并结合EMCluster包对结果进行验算。

      本文使用的密度函数为下面格式:


   对应的函数原型为 em.norm(x,means,covariances,mix.prop)

x为原数据,means为初始均值,covariances为数据的协方差矩阵,mix.prop为混合参数初始值。

使用的数据为MASS包里面的synth.te数据的前两列

首先安装需要的包,并读取原数据。

然后绘制相应的变量相关图:

R语言实现:混合正态分布EM最大期望估计法

从图上我们可以大概估计出初始的平均点为(-0.7,0.4) (-0.3,0.8)(0.5,0.6)

当然 为了试验的严谨性,我可以从两个初始均值点的情况开始估计

首先输入初始参数:

然后编写em.norm函数,注意其中的clusters值需要根据不同的初始参数进行修改,

结果,可以用图像化来表示:

R语言实现:混合正态分布EM最大期望估计法

R语言实现:混合正态分布EM最大期望估计法

 类似的其他情况这里不呈现了,另外r语言提供了EMCluster包可以比较方便的实现EM进行参数估计和结果的误差分析。

通过比较不同情况的AIC,我们可以筛选出适合的聚类数参数值。(欢迎转载,请注明出处。 )


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498