贝叶斯回归是一种统计方法,它使用贝叶斯定理来估计回归模型的参数。
与传统的频率派回归方法不同,贝叶斯回归提供了参数的后验分布,而不仅仅是点估计。
这意味着我们可以得到参数的不确定性度量,而不仅仅是单一的估计值。
R语言用于拟合贝叶斯广义线性模型。我们可以方便地帮助客户拟合贝叶斯线性回归、逻辑回归、多项式回归等各种模型。
Stan
你可以运行大多数回归。
- 由于广义线性模型(GLMs)涵盖了线性回归、probit、logit、Poisson、二项式、指数等模型,
glm
Family(可能还需要一个link参数)定义了你想要的回归类型:
- 线性回归:
family = gaussian
- Logit:
family = binomial(link = "logit")
- Probit:
family = binomial(link = "probit")
- Poisson:
family = poisson
先验分布:
- 无信息先验可以通过使用
prior = NULL
来设置 - 弱信息先验可以通过使用
prior =
与以下之一来指定:- normal, student_t, cauchy, laplace以及更多,可以在这里找到
使用rstanarm的泰坦尼克号生存示例
# 重构Class列
Titanic$class <- str_extract(Titanic$PClass, "[0-9]")
# 显示模型摘要
summary(TitanicLinear)
在实践中,对于二元目标变量,通常会选择逻辑回归(例如,使用family = binomial(link = "logit")
)。模型的摘要会提供有关模型拟合的详细信息,包括每个预测变量的系数和它们的置信区间。
视频
贝叶斯推断线性回归与R语言预测工人工资数据
视频
R语言中RStan贝叶斯层次模型分析示例
可信区间
打印置信区间。
图形化可信区间
绘制后验分布
在R中,你还可以轻松地绘制参数的后验分布。后验分布反映了在给定数据后,你对模型参数的信念。你可以使用各种可视化技术来展示这些分布,如直方图、密度图或箱线图。
随时关注您喜欢的主题
ggplot(Titanic_poste
ss)) +
geom_histogram()
先验和后验的比较
模型检验
模型检验基础
执行贝叶斯回归后,有多种回归诊断方法可以帮助推断模型是否收敛、表现如何,甚至比较不同模型。
图形化后验预测分析
要检查后验分布的预测准确性,它会将后验分布模拟的y值与实际的y值进行比较并绘制图形。
正则化与预测准确性
在贝叶斯和频率派估计中,一个关键问题是如何平衡预测准确性与简约性。换句话说,研究人员应该关注如何在不过度拟合数据的同时创建具有说服力的模型。
WAIC 示例
留一交叉验证
除了WAIC之外,另一种比较样本外预测能力的方法是应用留一交叉验证(LOO)。
- LOO通过迭代地将数据划分为训练集和预测集来评估后验模拟的预测能力。
LOO 示例
模型比较
复制代码 Titanic_probit <- data = Titanic, family = binomial(link=probit)) Loo_probit <- loo(Titanic_probit) data = Titanic, family = binomial(link=logit)) Loo_logit <- loo(Titanic_logit) # ELPD_diff>0 表示第二个模型更受支持
在上面的代码中,我们拟合两个贝叶斯广义线性模型,分别使用了probit和logit链接函数。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!