广义线性模型(GLM) 是通过连接函数,把自变量线性组合和因变量的概率分布连起来。
广义线性模型(GLM) 是通过连接函数,把自变量线性组合和因变量的概率分布连起来,该概率分布可以是高斯分布、二项分布、多项式分布、泊松分布、伽马分布、指数分布。
可下载资源
连接函数有:
- 平方根连接(用于泊松模型)
考虑一些均值μ和方差σ2的随机变量Y。利用泰勒展开式
例如保险索赔次数,索赔数为0的概率很高,否则保险公司就面临破产风险。这种数据数资料中的零值过多,超出了Poisson分布等一般离散分布的预测能力。零膨胀这个概念首先是由Lambert在1992年的论文“Zero-Inflated Poisson Regression,with an Application to Defects in Manufacturing”中提出。
零膨胀泊松
假使,考虑平方根变换g(y)= \ sqrt {y} g(y)= y,则第二个等式变为
因此,通过平方根变换,我们具有方差稳定性,可以将其解释为一定的同调性。
- 伯努利模型的对数函数
假设变量是泊松变量,
先前的模型看起来像是伯努利回归分析,其中H作为链接函数,\ mathbb {P}
因此,现在假设代替观察N,我们观察到Y = 1(N> 0)。在那种情况下,运行带有对数链接函数的伯努利回归,首先与对原始数据运行泊松回归,然后在我们的二进制变量零和非零上使用。让我们先生成一些模拟数据,比较从标准逻辑回归得到的eλx和px
regPois = glm(Y~.,data=base,family=poisson(link="log"))
regBinom = glm((Y==0)~.,data=base,family=binomial(link="probit"))
如果px \是从Bernoulli回归中获得的,并且具有连接功能,该怎么办?
plot(prob,1-exp(-lambda),xlim=0:1,ylim=0:1)
abline(a=0,b=1,lty=2,col="red")
拟合很好,现在,如果我们对婚姻出轨数据集,由雷·费尔,在1978年出版的 期刊政治经济学 (含563个观察,九个变量)进行建模:
prob = predict(regBinom, type="response")
plot(prob,exp(-lambda),xlim=0:1,ylim=0:1)
abline(a=0,b=1,lty=2,col="red")
在这种情况下,这两种模型结果是非常不同的。第二个模型也是
plot(prob,1-exp(-lambda),xlim=0:1,ylim=0:1)
abline(a=0,b=1,lty=2,col="red")
我们如何解释呢?是因为泊松模型不好吗?我们在这里运行零膨胀模型进行比较,
summary(regZIP)
Count model coefficients (poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.002274 0.048413 -0.047 0.963
X1 1.019814 0.026186 38.945 <2e-16 ***
X2 1.004814 0.024172 41.570 <2e-16 ***
Zero-inflation model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.90190 2.07846 -2.358 0.0184 *
X1 -2.00227 0.86897 -2.304 0.0212 *
X2 -0.01545 0.96121 -0.016 0.9872
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
由于零的膨胀,我们在这里拒绝了泊松分布的假设,可以使用对数连接来检查泊松分布是否是一个好的模型。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!