广义线性模型(GLMs)算法和零膨胀模型分析

广义线性模型（GLM） 是通过连接函数,把自变量线性组合和因变量的概率分布连起来。

由Kaizong Ye，Liao Bao撰写

广义线性模型（GLM） 是通过连接函数,把自变量线性组合和因变量的概率分布连起来,该概率分布可以是高斯分布、二项分布、多项式分布、泊松分布、伽马分布、指数分布。

可下载资源

完整程序、数据和文档（word）

连接函数有：

平方根连接（用于泊松模型）

考虑一些均值μ和方差σ2的随机变量Y。利用泰勒展开式

零膨胀模型（英语：Zero-inflated models）是人们在社会科学、自然中的计数资料的实际研究中，观察事件发生数中含有大量的零值。

1994年, Greene根据Lambert的方法提出了零膨胀负二项模型 (ZINB)。 2000年, Daniel根据Lambert的方法提出了零膨胀二项模型 (ZIB)。

例如保险索赔次数，索赔数为0的概率很高，否则保险公司就面临破产风险。这种数据数资料中的零值过多，超出了Poisson分布等一般离散分布的预测能力。零膨胀这个概念首先是由Lambert在1992年的论文“Zero-Inflated Poisson Regression,with an Application to Defects in Manufacturing”中提出。

零膨胀泊松

第一个零膨胀模型是Diane Lambert的零膨胀泊松模型，该模型涉及在单位时间内包含过量零计数数据的随机事件。例如，某些类型风险的人口中的保险索赔数量将由那些没有针对风险购买保险而因此无法提出索赔的人实现零膨胀。零膨胀泊松（ZIP）模型采用两个对应于两个零生成过程的组件。第一个过程由生成结构零的二进制分布控制。第二个过程由泊松分布控制，该分布生成计数，其中一些可能为零。两个模型组件描述如下：

假使，考虑平方根变换g（y）= \ sqrt {y} g（y）= y，则第二个等式变为

因此，通过平方根变换，我们具有方差稳定性，可以将其解释为一定的同调性。

伯努利模型的对数函数

假设变量是泊松变量，

课程

R语言数据分析挖掘必知必会

从数据获取和清理开始，有目的的进行探索性分析与可视化。让数据从生涩的资料，摇身成为有温度的故事。

立即参加 ➜

先前的模型看起来像是伯努利回归分析，其中H作为链接函数，\ mathbb {P}

因此，现在假设代替观察N，我们观察到Y = 1（N> 0）。在那种情况下，运行带有对数链接函数的伯努利回归，首先与对原始数据运行泊松回归，然后在我们的二进制变量零和非零上使用。让我们先生成一些模拟数据，比较从标准逻辑回归得到的eλx和px

 
regPois = glm(Y~.,data=base,family=poisson(link="log"))
regBinom = glm((Y==0)~.,data=base,family=binomial(link="probit"))

如果px \是从Bernoulli回归中获得的，并且具有连接功能，该怎么办？

 
plot(prob,1-exp(-lambda),xlim=0:1,ylim=0:1)
abline(a=0,b=1,lty=2,col="red")

拟合很好，现在，如果我们对婚姻出轨数据集，由雷·费尔，在1978年出版的 期刊政治经济学 （含563个观察，九个变量）进行建模：

 
prob = predict(regBinom, type="response")
plot(prob,exp(-lambda),xlim=0:1,ylim=0:1)
abline(a=0,b=1,lty=2,col="red")

最受欢迎的见解

1.用SPSS估计HLM层次线性模型模型

2.R语言线性判别分析（LDA），二次判别分析（QDA）和正则判别分析（RDA）

3.基于R语言的lmer混合线性回归模型

4.R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

5.在r语言中使用GAM（广义相加模型）进行电力负荷时间序列分析

6.使用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM

7.R语言中的岭回归、套索回归、主成分回归：线性模型选择和正则化

8.R语言用线性回归模型预测空气质量臭氧数据

9.R语言分层线性模型案例

在这种情况下，这两种模型结果是非常不同的。第二个模型也是

 
plot(prob,1-exp(-lambda),xlim=0:1,ylim=0:1)
abline(a=0,b=1,lty=2,col="red")

我们如何解释呢？是因为泊松模型不好吗？我们在这里运行零膨胀模型进行比较，

 
summary(regZIP)
 
Count model coefficients (poisson with log link):
             Estimate Std. Error z value Pr(&gt;|z|)    
(Intercept) -0.002274   0.048413  -0.047    0.963    
X1           1.019814   0.026186  38.945   &lt;2e-16 ***
X2           1.004814   0.024172  41.570   &lt;2e-16 *** 
Zero-inflation model coefficients (binomial with logit link): 
            Estimate Std. Error z value Pr(&gt;|z|)  
(Intercept) -4.90190    2.07846  -2.358   0.0184 *
X1          -2.00227    0.86897  -2.304   0.0212 *
X2          -0.01545    0.96121  -0.016   0.9872  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

由于零的膨胀，我们在这里拒绝了泊松分布的假设，可以使用对数连接来检查泊松分布是否是一个好的模型。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！