我们使用广义线性模型(Generalized Linear Models,简称GLM)来研究客户的非正态数据,并探索非线性关系。
GLM是一种灵活的统计模型,适用于各种数据类型和分布,包括二项分布、泊松分布和负二项分布等非正态分布。
通过GLM,我们可以对非正态数据进行建模和预测,并且能够处理计数数据,如客户购买数量、网站点击次数等。
GLM还允许引入自变量的非线性效应,从而更好地拟合与响应变量之间的复杂关系。
这使得GLM成为处理非正态数据和非线性关系的强大工具。
泊松回归和伽马回归 – 探索联系
如果我们查看火车与机动车碰撞数据,我们会发现一个有趣的模式。
library(readr) ...... train <- read_csv("s_agresti.csv") train_plot <- ggplot(train, ......
在数据分析的广阔领域中,细微的观察往往能揭示出数据的深层特性。就当前的情况而言,仅仅是通过初步的观察,我们就可以明确地感知到方差与预测变量之间存在着某种微妙的关系,它们之间的变化是紧密相连的。这种关联性可能源于多种因素,但无论如何,它都为我们理解数据的内在规律提供了重要的线索。
进一步地,我们所处理的数据类型是计数数据,这类数据有着其独特的分布特征,即著名的泊松分布。泊松分布常用于描述在固定时间或空间内随机事件发生的次数,它的特性在于其方差与均值相等,这在很多自然和社会现象中都有广泛的应用。因此,对于这类数据,我们在选择分析方法时需要特别考虑其分布特性。
然而,如果我们在这种情况下坚持使用线性模型(lm)进行分析,会面临怎样的挑战呢?线性模型是数据分析中常用的工具,它基于线性关系对数据进行拟合和预测,具有简洁明了的优点。但是,对于不符合正态分布假设的数据,如泊松分布的数据,线性模型可能会产生偏差或误导性的结果。这是因为线性模型的假设条件之一就是误差项应服从正态分布,而泊松分布显然不满足这一条件。
可下载资源
作者
视频
逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例
视频
非线性模型原理与R语言多项式回归、局部平滑样条、 广义相加模型GAM分析
train_lm <-......odel(train_lm)
预测值和观测值之间不匹配。部分原因是这里的响应变量在残差中不是正态分布的,而是泊松分布,因为它是计数数据。
泊松回归
具有泊松误差的广义线性模型通常具有对数链接,尽管也可以具有恒等链接。例如,
pois_tib <- tibble(x = rep(0:40,2), ...... geom_col(position = position_dodge())
上面显示了两个泊松分布,一个均值为5,另一个均值为20。请注意它们的方差如何变化。
对数链接(例如ŷ=ea+bx̂=eβ+αx)是一个自然的拟合方法,因为它不能得到小于0的值。因此,在这种情况下,我们可以这样做:
train_glm <- glm(collisions ~ km_trtravel,
......
然后,我们可以重新评估模型的假设,包括过分离。请注意,下面的QQ图并没有什么实际意义,因为这不是正态分布。
随时关注您喜欢的主题
check_model(train_glm)
那么…残差怎么办呢?鉴于残差不是正态分布的,使用qqnorm
图几乎没有意义。拟合残差关系仍然可能看起来很奇怪。
使用广义线性模型的分位数残差
评估广义线性模型(以及许多其他模型形式)的一种方法是查看其分位数残差。 因此,首先让我们使用DHARMa生成一些模拟残差。
res <- simulateResiduals(train_glm)
我们可以绘制这些图表,并进行非参数拟合检验。plotQQunif(res)
很好,拟合效果不错。忽略异常值测试,因为在更详细的观察中我们发现没有异常值。
我们还可以查看预测与量化残差图。
plotResiduals(res)
check_overdispersion(train_glm) |> plot()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x' ## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
查看glm结果
让我们来看看模型结果。
summary(train_glm)
注意,在这里我们看到了标准的glm输出,我们可以像处理任何对数变换一样解释系数。我们还有一个离散参数,描述了均值和方差之间的关系。对于泊松分布,它的值为1。
最后,我们可以绘图。
train_plot + ......"log")))
Gamma回归
然而,我们的数据通常不是离散的。考虑来自Zuur的蛤蜊数据。
clams <- read_delim("ams.txt", delim = "\t") %>% mutate(MONTH = factor(MONTH))
AFD(无灰干质量)与月份和长度有什么关系?显然这里存在非线性关系。
clam_plot <- ggplot(clams, ...... clam_plot
现在,看起来我们应该用对数变换的模型进行拟合,但是…
clam_lm <- lm(log(......
显然存在明显的问题。即使对AFD取对数后的qq图也不好,残差拟合图也不好。Gamma glm采用其逆函数作为其规范连接,但它们通常也可以使用对数连接。
clam_gamma <- glm(AFD ~ ...... data = clams) check_model(clam_gamma)
还有
clam_res <- simulateR......res)
ploals(clam_res)
好的,也许不是很好。但这主要是由于高值的稀疏性导致的,所以没关系。
我们可以使用predict进行绘图,在这里分别绘制每个月的图。
clam_plot +...... facet_wrap(~MONTH)
我们还可以查看其他属性。
summary(clam_gamma)
我们可以重新参数化伽马分布,使得均值=形状/速率。在这种情况下,我们使用该均值和形状参数化伽马分布。离散参数是1/形状。
但是,为了更容易理解,伽马的方差随均值的平方成比例地扩展。离散参数越大,方差扩展得越快。
最后,我们可以使用纳吉尔克计的伪R2来计算R2。
# fit r2(clam_gamma)
这是正态的吗?
你可能会问为什么这里使用伽马分布而不是正态分布?我们可以用正态误差和对数链接进行glm拟合。
clam_glm_norm <- glm(AFD ...... data = clams)
一种判断的方法是寻找过离散。
norm_res <- simulateRe......orm_res)
plotuals(norm_res)
我们可以看到QQ图很好。而且predobs也不糟糕(特别是与上面相比)。这是一些很好的证据,表明这里可能只需要正态误差和对数链接。
逻辑回归
让我们来看看我们的小鼠感染隐孢子虫的例子。请注意,数据被限制在0和1之间。
mouse <- read_csv...... Porportion)) + geom_point() mouse_plot
这是因为虽然N是每个样本的总小鼠数量,但是我们不能有超过N的感染!实际上,每只老鼠就像一次抛硬币。它是否被感染了。
二项分布
二项分布有两个参数,成功的概率和硬币投掷的次数。得到的分布始终介于0和1之间。考虑使用不同概率进行15次硬币投掷的情况。
Rbin_tibble <- tibble(outcome = rep(0:15, 2),...... geom_col(position = position_dodge())
我们也可以将x轴的范围调整为0到1,来表示比例。
或者,考虑相同的概率,但是不同次数的硬币投掷。
Rbin_tibble <- tibble(outcome = rep(0:15, 2),...... geom_col(position = position_dodge())
你可以看到两个参数都会影响分布的形状。
二项式逻辑回归
在二项逻辑回归中,我们主要是估计获得正面的概率。然后我们以权重的形式提供(而不是估计)试验次数。这里使用的典型链接函数是logit函数,因为它描述了一个在0和1之间饱和的逻辑函数。
在R中,我们可以使用两种形式来参数化二项逻辑回归 – 这两种形式是等价的,因为它们将结果扩展为成功次数和总试验次数。
Rmouse_glm_cbind <- glm(cbind(Y,...... data = mouse)
第二种方式使用权重来表示试验次数。
Rmouse_glm <- glm(Porport...... data = mouse)
这两个模型是相同的。
从这一点开始,工作流程与以往一样 – 假设检验、分析和可视化。
Rchecl(mouse_glm)
Rbinduals(mouse_glm, ......
Rres_bin <- sim......
RplotRes_bin)
Rsummary(moglm)
Rr2(mouse_glm)
注意,离散参数为1,就像泊松分布一样。
Rggplot(mouse, ...... method.args = list(family = binomial))
Beta回归
最后,我们经常会遇到受限数据,但这些数据不是从二项式分布中抽取的 – 也就是说,并不存在独立的“硬币翻转”,如果你愿意的话。
考虑以下关于服用不同补充剂时锻炼后钠摄入比例的分析,2300是推荐摄入量,所以我们将其标准化为这个值。
Rsodium <- read_csv("laake.csv")
Rggplot(sodium, ...... geom_boxplot()
现在,让我们使用Beta回归来观察这个结果。
R sodium_beta <- beta...... data = sodium)
Rsoditmb <- glmmTMB(Porport...... data = sodium) chec......a_tmb)
RplotQQunif(sodium_beta_tmb)
然后我们可以继续进行所有我们通常的测试和可视化。例如 –
Remmeans(sodium_b...... confint(adjust = "none")
如果我们有一个连续的协变量,我们可以获得拟合值和误差,并将它们放入模型中。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!