尽管贝叶斯方法相对于频率主义方法的理论优势已经在其他地方进行了详细讨论，但其更广泛采用的主要障碍是“可用性”。

由Kaizong Ye，Coin Ge撰写

而使用贝叶斯方法，客户可以按照自己认为合适的方式定义模型。

线性回归

在此示例中，我们将帮助客户从最简单的 GLM – 线性回归开始。一般来说，频率论者对线性回归的看法如下：

可下载资源

完整程序、数据和文档（word）

然后，我们可以使用普通最小二乘法（OLS）或最大似然法来找到最佳拟合。

概率重构

贝叶斯主义者对世界采取概率观，并用概率分布来表达这个模型。我们上面的线性回归可以重新表述为：

× 频率主义和贝叶斯回归方法之间的关键区别在于他们如何处理参数。在频率统计中，线性回归模型的参数是固定的，而在贝叶斯统计中，它们是随机变量。频率主义者使用极大似然估计(MLE)的方法来推导线性回归模型的值。MLE的结果是每个参数的一个固定值。在贝叶斯世界中，参数是具有一定概率的值分布，使用更多的数据更新这个分布，这样我们就可以更加确定参数可以取的值。这个过程被称为贝叶斯更新

换句话说，我们将Y其视为一个随机变量（或随机向量），其中每个元素（数据点）都根据正态分布分布。此正态分布的均值由具有方差sigma的线性预测变量提供。

PyMC 中的贝叶斯 GLM

要开始在 PyMC 中构建 GLM，让我们首先导入所需的模块。



print(f"Running on PyMC v{pm.__version__}")


az.style.use("arviz-darkgrid")

视频

R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

贝叶斯推断线性回归与R语言预测工人工资数据

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

自适应网页宽度的 Youku 视频

视频

R语言中RStan贝叶斯层次模型分析示例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

数据

本质上，我们正在创建一条由截距和斜率定义的回归线，并通过从均值设置为回归线的正态采样来添加数据点。


y = true_regression_line + rng.normal(scale=0.5, size=size)

data = pd.DataFrame(dict(x=x, y=y))


plt.legend(loc=0);

估计模型

让我们将贝叶斯线性回归模型拟合到此数据。


    # 定义似然函数
    likelihood = Normal("y", mu=intercept + slope * x, sigma=sigma, observed=y)

    # 使用NUTS采样推断
    idata = sample(3000)

对于了解概率编程的人来说，这应该是相当可读的。


    import bambi as bmb

idata = model.fit(draws=3000)

要短得多，但这段代码与之前的规范完全相同。

分析模型

贝叶斯推理不仅给了我们一条最佳拟合线（就像最大似然那样），而是给出了合理参数的整个后验分布。让我们绘制参数的后验分布和我们绘制的单个样本。

az.plot_trace(idata, figsize=(10, 7));

最受欢迎的见解

1.MATLAB贝叶斯估计MCMC分析药物对不同种群生物生理指标数据评估可视化

3.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

4.R语言NIMBLE、Stan和INLA贝叶斯平滑及条件空间模型死亡率

5.R语言使用RJAGS R2JAGS建立贝叶斯模型

6.R语言贝叶斯线性回归和多元线性回归构建工资预测模型

7.R语言使用贝叶斯层次模型进行空间数据分析

8.R语言中贝叶斯网络（BN）、动态贝叶斯网络、线性模型分析错颌畸形数据

9.Python贝叶斯金融数据应用实例合集

左侧显示了我们的边缘后验 – 对于 x 轴上的每个参数值，我们在 y 轴上得到一个概率，告诉我们该参数值的可能性。

首先，各个参数（左侧）的采样链看起来均匀且平稳（没有大的漂移或其他奇怪的模式）。

R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资

阅读文章 ➜

其次，每个变量的最大后验估计值（左侧分布中的峰值）非常接近用于生成数据的真实参数（x是回归系数，sigma是我们正态的标准差）。

因此，在 GLM 中，我们不仅有一条最佳拟合回归线，而且有许多。后验预测图从后验图（截距和斜率）中获取多个样本，并为每个样本绘制一条回归线。我们可以直接使用后验样本手动生成这些回归线。

随时关注您喜欢的主题


idata.posterior["y_model"] = idata.posterior["Intercept"] + idata.posterior["x"] * xr.DataArray(x)

_, ax = plt.subplots(figsize=(7, 7))
az.plot_lm(idata=idata, y="y", num_samples=100, axes=ax, y_model="y_model")
ax.set_title("Posterior predictive regression lines")
ax.set_xlabel("x");

58afa5d526110646b5d5255a310ea7787bbf71e9b45131822b00e8fb69745e88.png

我们估计的回归线与真正的回归线非常相似。

**但是由于我们只有有限的数据，我们的估计存在不确定性，这里用线的可变性来表示。**

总结

可用性目前是更广泛采用贝叶斯统计的巨大障碍。
Bambi允许使用从 R 借用的便捷语法进行 GLM 规范。然后可以使用pymc 进行推理。
后验预测图使我们能够评估拟合度和其中的不确定性。

延伸阅读

有关其他背景信息，以下是一些关于贝叶斯统计的好资源：

约翰·克鲁施克（John Kruschke）的优秀著作《做贝叶斯数据分析》。

版本信息：

%load_ext watermark

%watermark -n -u -v -iv -w -p pytensor


Python implementation: CPython
Python version       : 3.11.4
IPython version      : 8.14.0

pytensor: 2.14.2

pymc      : 5.7.2+0.gd59a960f.dirty
bambi     : 0.12.0
arviz     : 0.16.1
xarray    : 2023.7.0
matplotlib: 3.7.2
numpy     : 1.25.2
sys       : 3.11.4 | packaged by conda-forge | (main, Jun 10 2023, 18:08:17) [GCC 12.2.0]
pandas    : 2.0.3

Watermark: 2.4.3

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

Python用PyMC贝叶斯GLM广义线性模型、NUTS采样器拟合、后验分布可视化

线性回归

概率重构

PyMC 中的贝叶斯 GLM

数据

估计模型

分析模型

R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资

随时关注您喜欢的主题

**但是由于我们只有有限的数据，我们的估计存在不确定性，这里用线的可变性来表示。**

总结

延伸阅读

相关文章

Python用PyMC贝叶斯GLM广义线性模型、NUTS采样器拟合、后验分布可视化

线性回归

概率重构

PyMC 中的贝叶斯 GLM

数据

估计模型

分析模型

R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资

随时关注您喜欢的主题

但是由于我们只有有限的数据，我们的估计存在不确定性，这里用线的可变性来表示。

总结

延伸阅读

相关文章

关注我们，永远不要错过任何见解。

**但是由于我们只有有限的数据，我们的估计存在不确定性，这里用线的可变性来表示。**