本文讲解了使用PyMC3进行基本的贝叶斯统计分析过程。

由Kaizong Ye，Weilong Zhang撰写

在现实世界中，我们面临着各种各样的不确定性。从金融市场的波动、医疗诊断的准确性到气象预报的可靠性，许多问题都无法用确定的答案来描述。传统的统计方法往往基于频率学派的思想，通过大量的重复试验来估计参数，但在处理有限数据或先验信息丰富的情况下，其局限性就会显现出来。

贝叶斯统计分析作为一种强大的统计方法，为解决这些不确定性问题提供了全新的视角。它将先验知识与观测数据相结合，通过贝叶斯定理不断更新对参数的认识，从而得到更合理、更符合实际情况的推断结果。贝叶斯方法能够在数据有限时，充分利用先验信息进行推断；同时，它还能对不确定性进行量化，给出参数的概率分布，而不仅仅是一个点估计。

本文讲解了使用PyMC3进行基本的贝叶斯统计分析过程。

可下载资源

完整程序、数据和文档（word）

本文分析的智能体、数据、代码、报告分享至会员群

加入会员群

作者

Kaizong Ye
✉ 联系我们

# 导入
import pymc3 as pm # python的概率编程包
import numpy.random as npr # numpy是用来做科学计算的
import numpy as np
import matplotlib.pyplot as plt # matplotlib是用来画图的
import matplotlib as mpl

from collections import Counter # ? 
import seaborn as sns # ? 
# import missingno as msno # 用来应对缺失的数据

# 设置绘图风格
 sns.set_style('white')
sns.set_context('poster')

%load_ext autoreload
%autoreload 2
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

import warnings
warnings.filterwarnings('ignore')

概率编程允许在用户自定义的概率模型上进行自动贝叶斯推断。新的MCMC(Markoc chain Monte Carlo)采样方法允许在复杂模型上进行推断。这类MCMC采样方法被称为HMC(Hamliltinian Monte Carlo)，但是其推断需要的梯度信息有时候是不获得的。PyMC3是一个用Python编写的开源的概率编程框架，使用Theano通过变分推理进行梯度计算，并使用了C实现加速运算。不同于其他概率编程语言，PyMC3允许使用Python代码来定义模型。这种没有作用域限制的语言极大的方便了模型定义和直接交互。这篇文章介绍了这个软件包。

简介

PyMC3具有先进的下一代MCMC采样算法如No-U-Turn Sampler (NUTS; Hoffman, 2014)和Hamiltonian Monte Carlo自整定变体(HMC; Duane, 1987)。这类采样算法在高维和复杂的后验分布上具有良好的效果，允许对复杂模型进行拟合而不需要对拟合算法有特殊的了解。NUTS和HMC算法从似然函数中获得梯度信息，因此其收敛速度比传统采样方法快很多，特别是针对大模型。NUTS也具有集合自整定过程，因此使用者不需要了解算法细节。

使用python进行贝叶斯统计分析

贝叶斯公式

贝叶斯主义者的思维方式

根据证据不断更新

`pymc3`

视频

贝叶斯推断线性回归与R语言预测工人工资数据

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

常见的统计分析问题

参数估计: “真实值是否等于X”
比较两组实验数据: “实验组是否与对照组不同? “

问题1: 参数估计

“真实值是否等于X?”

或者说

“给定数据，对于感兴趣的参数，可能值的概率分布是多少？”

例 1: 抛硬币问题

我把我的硬币抛了 n次，正面是 h次。这枚硬币是有偏的吗？

参数估计问题parameterized problem

先验假设

对参数预先的假设分布: p～Uniform(0,1)
likelihood function(似然函数, 翻译这词还不如英文原文呢): data～Bernoulli(p)

# 产生所需要的数据
from random import shuffle
total = 30
n_heads = 11
n_tails = total - n_heads
tosses = [1] * n_heads + [0] * n_tails
shuffle(tosses)

数据

fig = plot_coins()
plt.show()

MCMC Inference Button (TM)

100%|██████████| 2500/2500 [00:00<00:00, 3382.23it/s]

结果

最受欢迎的见解

1.matlab使用贝叶斯优化的深度学习

2.matlab贝叶斯隐马尔可夫hmm模型实现

3.R语言Gibbs抽样的贝叶斯简单线性回归仿真

4.R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

5.R语言中的Stan概率编程MCMC采样的贝叶斯模型

6.Python用PyMC3实现贝叶斯线性回归模型

7.R语言使用贝叶斯层次模型进行空间数据分析

8.R语言随机搜索变量选择SSVS估计贝叶斯向量自回归（BVAR）模型

9.matlab贝叶斯隐马尔可夫hmm模型实现

pm.traceplot(coin_trace)
plt.show()

自适应网页宽度的 Youku 视频

视频

R语言中RStan贝叶斯层次模型分析示例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

In [10]:

 
plt.show()

95% highest posterior density (HPD, 大概类似于置信区间) 包含了 region of practical equivalence (ROPE, 实际等同区间).

例 2: 药品活性问题

我有一个新开发的分子X; X在阻止流感病毒复制方面有多好？

实验

测试X的浓度范围, 测量流感活性
计算 IC50: 能够抑制病毒复制活性50%的X浓度.

data

 
import pandas as pd

chem_df = pd.DataFrame(chem_data)
chem_df.columns = ['concentration', 'activity']
chem_df['concentration_log'] = chem_df['concentration'].apply(lambda x:np.log10(x))
# df.set_index('concentration', inplace=True)

参数化问题parameterized problem

给定数据, 求出化学物质的IC50值是多少, 并且求出置信区间( 原文中the uncertainty surrounding it, 后面看类似置信区间的含义)?

先验知识

由药学知识已知测量函数(measurement function): m=β1+exIC50
测量函数中的参数估计, 来自先验知识: β～HalfNormal(1002)
关于感兴趣参数的先验知识: log(IC50)～ImproperFlat
likelihood function: data～N(m,1)

数据

In [13]:

fig = plot_chemical_data(log=True)
plt.show()

MCMC Inference Button (TM)

In [16]:

pm.traceplot(ic50_trace[2000:], varnames=['IC50_log10', 'IC50'])  # live: sample from step 2000 onwards.
plt.show()

结果

In [17]:

pm.plot_posterior(ic50_trace[4000:], varnames=['IC50'], 
                  color='#87ceeb', point_estimate='mean')
plt.show()

该化学物质的 IC50 大约在[2 mM, 2.4 mM] (95% HPD). 这不是个好的药物候选者. 在这个问提上不确定性影响不大, 看看单位数量级就知道IC50在毫摩的物质没什么用…

第二类问题: 实验组之间的比较

“实验组和对照组之间是否有差别? “

例 1: 药品对IQ的影响问题

药品治疗是否影响(提高)IQ分数?

 

def ECDF(data):
    x = np.sort(data)
    y = np.cumsum(x) / np.sum(x)
    
    return x, y

def plot_drug():
    fig = plt.figure()
    ax = fig.add_subplot(1,1,1)
    x_drug, y_drug = ECDF(drug)
    ax.plot(x_drug, y_drug, label='drug, n={0}'.format(len(drug)))
    x_placebo, y_placebo = ECDF(placebo)
    ax.plot(x_placebo, y_placebo, label='placebo, n={0}'.format(len(placebo)))
    ax.legend()
    ax.set_xlabel('IQ Score')
    ax.set_ylabel('Cumulative Frequency')
    ax.hlines(0.5, ax.get_xlim()[0], ax.get_xlim()[1], linestyle='--')
    
    return fig

In [19]:

# Eric Ma自己很好奇, 从频率主义的观点, 差别是否已经是具有"具有统计学意义"

from scipy.stats import ttest_ind

ttest_ind(drug, placebo) # (非配对) t检验. P=0.025, 已经<0.05了

Out[19]:

Ttest_indResult(statistic=2.2806701634329549, pvalue=0.025011500508647616)

实验

参与者被随机分为两组:
- 给药组 vs. 安慰剂组
测量参与者的IQ分数

先验知识

被测数据符合t分布: data～StudentsT(μ,σ,ν)

以下为t分布的几个参数:

均值符合正态分布: μ～N(0,1002)
自由度(degrees of freedom)符合指数分布: ν～Exp(30)
方差是positively-distributed: σ～HalfCauchy(1002)

数据

In [20]:

fig = plot_drug()
plt.show()

代码

In [21]:

y_vals = np.concatenate([drug, placebo])
labels = ['drug'] * len(drug) + ['placebo'] * len(placebo)

data = pd.DataFrame([y_vals, labels]).T
data.columns = ['IQ', 'treatment']

MCMC Inference Button (TM)

结果

In [24]:

pm.traceplot(kruschke_trace[2000:], 
             varnames=['mu_drug', 'mu_placebo'])
plt.show()

In [25]:

pm.plot_posterior(kruschke_trace[2000:], color='#87ceeb',
            varnames=['mu_drug', 'mu_placebo', 'diff_means'])
plt.show()

IQ均值的差距为: [0.5, 4.6]
频率主义的 p-value: 0.02 (!!!!!!!!)

注: IQ的差异在10以上才有点意义. p-value=0.02说明组间有差异, 但没说差异有多大. 这个故事说的是虽然有差异, 但是差异太小了, 也没啥意思.

In [27]:

 
ax = adjust_forestplot_for_slides(ax)
plt.show()

森林图：在同一轴上的95％HPD（细线），IQR（粗线）和后验分布的中位数（点），使我们能够直接比较治疗组和对照组。

In [29]:

ax = pm.plot_posterior(kruschke_trace[2000:], 
                       varnames=['effect_size'],
                       color='#87ceeb')
overlay_effect_size(ax)

效果大小（Cohen’s d, 效果微小, 效果中等, 效果很大）可以从微小到很大（95％HPD [0.0，0.77]）。
这种药很可能是无关紧要的。
没有生物学意义的证据。

例 2: 手机消毒问题

比较两种常用的消毒方法, 和我的fancy方法, 哪种消毒方法更好

实验设计

将手机随机分到6组: 4 “fancy” 方法 + 2 “control” 方法.
处理前后对手机表面进行拭子菌培养
count 菌落数量, 比较处理前后的菌落计数

Out[30]:

sample_id                 int32
treatment                 int32
colonies_pre              int32
colonies_post             int32
morphologies_pre          int32
morphologies_post         int32
year                    float32
month                   float32
day                     float32
perc_reduction morph    float32
site                      int32
phone ID                float32
no case                 float32
frac_change_colonies    float64
dtype: object

数据

In [32]:

fig = plot_colonies_data()
plt.show()

先验知识

菌落计数符合泊松Poisson分布. 因此…

菌落计数符合泊松分布: dataij～Poisson(μij),j∈[pre,post],i∈[1,2,3…]
泊松分布的参数是离散均匀分布: μij～DiscreteUniform(0,104),j∈[pre,post],i∈[1,2,3…]
灭菌效力通过百分比变化测量，定义如下: mupremupostmupre

MCMC Inference Button (TM)

In [34]:

with poisson_estimation:
    poisson_trace = pm.sample(200000)

Assigned Metropolis to pre_mus
Assigned Metropolis to post_mus
100%|██████████| 200500/200500 [01:15<00:00, 2671.98it/s]

In [35]:

pm.traceplot(poisson_trace[50000:], varnames=['pre_mus', 'post_mus'])
plt.show()

结果

In [39]:

pm.forestplot(poisson_trace[50000:], varnames=['perc_change'], 
              ylabels=treatment_order) #, xrange=[0, 110])
plt.xlabel('Percentage Reduction')

ax = plt.gca()
ax = adjust_forestplot_for_slides(ax)

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

使用python进行贝叶斯统计分析

简介

使用python进行贝叶斯统计分析

贝叶斯公式

贝叶斯主义者的思维方式

pymc3

常见的统计分析问题

问题1: 参数估计

例 1: 抛硬币问题

参数估计问题parameterized problem

先验假设

数据

MCMC Inference Button (TM)

结果

例 2: 药品活性问题

实验

data

参数化问题parameterized problem

先验知识

数据

MCMC Inference Button (TM)

结果

第二类问题: 实验组之间的比较

例 1: 药品对IQ的影响问题

实验

先验知识

数据

代码

MCMC Inference Button (TM)

结果

例 2: 手机消毒问题

实验设计

数据

先验知识

MCMC Inference Button (TM)

结果

相关文章

`pymc3`