主题建模是一种在大量文档中查找抽象主题的艺术方法。

由Kaizong Ye，Weilong Zhang撰写

作为无监督的机器学习方法，主题模型不容易评估，因为没有标记的“基础事实”数据可供比较。

可下载资源

然而，由于主题建模通常需要预先定义一些参数（首先是要发现的主题ķ的数量），因此模型评估对于找到给定数据的“最佳”参数集是至关重要的。

1 文本生成

1.1 文本生成过程

对于一篇文档，可以看成是一组有序的词的序列 $d=(\omega_1,\omega_2,…,\omega_n)$ 。从统计学的角度看，文档的生成可以看成是上帝抛掷骰子生成的结果，每一次抛掷骰子都生成一个单词，抛掷 $n$ 次生成一篇文档。对于该抛掷的过程，存在两个不同学派的观点：

频率学派认为，上帝只有一个骰子，这个骰子有V面，每个面对应一个单词。上帝生成文档是通过独立抛掷 $n$ 次产生n个词；
贝叶斯学派认为，上帝有一个装有多个骰子的坛子，每个骰子有V面，每个面对应一个单词（不同骰子每个面概率不同）。上帝生成文档是通过先在坛子里拿一个骰子，然后再独立抛掷 $n$ 次产生 $n$ 个词。

LDA（Latent Dirichlet Allocation）是Blei等人基于上述贝叶斯学派的观点提出的一种生成文档的方法，该方法假设每个单词是由背后的一个潜在隐藏的主题中抽取出来。对于语料库中的每篇文档，其生成过程为：（1）选择主题；（2）生成单词；（3）组成文档。具体过程如下：

对于每篇文档，其主题存在一个分布，根据该主题分布抽取一个主题；
对于每个主题，其单词存在一个分布，根据该分布抽取一个单词；
重复过程2直到遍历文档中的每一个词。

那么上述主题分布和单词分布都是什么分布呢？且分布需要满足什么性质呢？

1.2 贝叶斯规则

对于一篇文档，构成文档的单词是可观测的，但文档的主题是不可观测的，因此我们需要根据可观测的单词去估计隐藏的主题分布。根据贝叶斯规则：

$p(\theta|x)=\frac{p(x|\theta)*p(\theta)}{p(x)}=\frac{p(x|\theta)p(\theta)}{\int p(x|\theta)*p(\theta)d\theta}\propto p(x|\theta)*p(\theta) \\$

其中：

$p(\theta|x)$ 表示根据观测的数据，得出主题的后验分布；
$p(\theta)$ 表示主题的先验分布；
$p(x|\theta)$ 表示观测数据的似然函数；

上述就是贝叶斯思想：对于一个未知的分布，先假设其服从先验分布（来源于以前做试验数据计算得到，或来自于人们的主观经验），通过观测到的数据，根据贝叶斯规则计算对应的后验分布。很显然 $t$ 时刻的后验分布为 $t+1$ 次的先验分布，因此需要满足先验分布和后验分布具有相同的形式，即上述中 $p(\theta|x)$ 与 $p(\theta)$ 具有相同的分布形式。

2 前置知识

2.1 gamma函数

根据阶乘可知： $n!=1*2*3*…*n$ ，但是当出现小数时，比如计算 $0.5!$ 则阶乘无法直接计算，因此才出现了阶乘的函数形式——gamma函数：

$\Gamma(x)\int_0^{+\infty}e^{-t}t^{x-1}dt(x>0) \\”> </p> <p> 根据gamma函数计算可得<img decoding=$ ，因此有 $\Gamma(n)=(n-1)!$

2.2 二项分布

对于 $n$ 次独立试验，假设每次试验的结果只有两种：成功与失败。成功的概率为 $p$ ，则失败的概率为 $1-p$ 。 $n$ 次独立实验的结果中，成功的次数为 $n_1$ ，失败的次数为 $n_2$ ，则定义似然函数为：

$L=\frac{n!}{n_1!n_2!}p^{n_1}（1-p）^{n_2} \\$

似然函数表示观测数据出现的概率，上式满足： $n=n_1+n_2$

2.3 beta分布

$\begin{aligned} P(p|\alpha_1,\alpha_2)&=\frac{p^{\alpha_1-1}(1-p)^{\alpha_2-1}}{B(\alpha_1,\alpha_2)}\\ &=\frac{\Gamma(\alpha_1+\alpha_2)}{\Gamma(\alpha_1)\Gamma(\alpha_2)}p^{\alpha_1-1}(1-p)^{\alpha_2-1}\\ \end{aligned} \\$

其中 $\alpha_1,\alpha_2$ 为beta分布的超参数，表示伪计数。

参数解释：假设NBA运动员的投篮命中率服从beta分布，对一个刚进联盟的篮球运动员的命中率进行建模，很明显该运动员的命中率也服从beta分布。此时利用上赛季全联盟所有人的投篮命中数 $\alpha_1$ ，打铁数 $\alpha_2$ ，作为该运动员命中率beta分布的参数。且以 $\frac{\alpha_1}{\alpha_1+\alpha_2}$ 作为该运动员的先验命中率。此后，根据该运动员投篮数据的增加，去更新其投篮命中率的计算。

期望计算：

$\begin{aligned} E(p)&=\int_0^1t*Beta(t|\alpha_1,\alpha_2)dt\\ &=\int_0^1t\frac{\Gamma(\alpha_1+\alpha_2)}{\Gamma(\alpha_1)\Gamma(\alpha_2)}t^{\alpha_1-1}(1-t)^{\alpha_2-1}dt\\ &=\frac{\Gamma(\alpha_1+\alpha_2)}{\Gamma(\alpha_1)\Gamma(\alpha_2)}\int_0^1t^{\alpha_1}(1-t)^{\alpha_2-1}dt\\ \end{aligned} \\$

对于分布 $Beta(t|\alpha_1+1,\alpha_2)$ ，有

$\int_0^1Beta(t|\alpha_1+1,\alpha_2)dt=\int_0^1\frac{\Gamma(\alpha_1+1+\alpha_2)}{\Gamma(\alpha_1+1)\Gamma(\alpha_2)}t^{\alpha_1}(1-t)^{\alpha_2-1}dt=1 \\$

则有

$\int_0^1t^{\alpha_1}(1-t)^{\alpha_2-1}dt=\frac{\Gamma(\alpha_1+1)\Gamma(\alpha_2)}{\Gamma(\alpha_1+1+\alpha_2)} \\$

代入上式 $E(p)$ 得

$E(p)=\frac{\Gamma(\alpha_1+\alpha_2)}{\Gamma(\alpha_1)\Gamma(\alpha_2)}*\frac{\Gamma(\alpha_1+1)\Gamma(\alpha_2)}{\Gamma(\alpha_1+1+\alpha_2)}=\frac{\alpha_1}{\alpha_1+\alpha_2} \\$

2.4 共轭先验分布

上述二项式分布的似然函数为

$L=\frac{n!}{n_1!n_2!}p^{n_1}（1-p）^{n_2} \\$

先验的beta分布为

$P(p|\alpha_1,\alpha_2)=\frac{p^{\alpha_1-1}(1-p)^{\alpha_2-1}}{B(\alpha_1,\alpha_2)} \\$

根据贝叶斯规则可得后验分布

$\begin{aligned} P(p|n_1,n_2,\alpha_1,\alpha_2)&=\frac{(\frac{p^{\alpha_1-1}(1-p)^{\alpha_2-1}}{B(\alpha_1,\alpha_2)})*(\frac{n!}{n_1!n_2!}p^{n_1}（1-p）^{n_2})}{\int_0^1(\frac{q^{\alpha_1-1}(1-q)^{\alpha_2-1}}{B(\alpha_1,\alpha_2)})*(\frac{n!}{n_1!n_2!}q^{n_1}（1-q）^{n_2})dq}\\ &=\frac{p^{n_1+\alpha_1-1}(1-p)^{n_2+\alpha_2-1}}{\int_0^1q^{n_1+\alpha_1-1}(1-q)^{n_2+\alpha_2-1}dq}\\ &=\frac{p^{n_1+\alpha_1-1}(1-p)^{n_2+\alpha_2-1}}{B(n_1+\alpha_1,n_2+\alpha_2)}\\ &=Beta(n_1+\alpha_1,n_2+\alpha_2) \end{aligned} \\$

即后验分布仍满足beta分布，与先验一致。

先验分布

$P(p|\alpha_1,\alpha_2)=Beta(\alpha_1,\alpha_2) \\$

后验分布

$P(p|\alpha_1,\alpha_2,n_1,n_2)=Beta(\alpha_1+n_1,\alpha_2+n_2) \\$

其中 $\alpha_1,\alpha_2$ 为伪计数， $n_1,n_2$ 为观测的数据。

综上，二项分布对应的共轭先验为beta分布，其意思为，beta分布*二项分布的结果仍未beta分布。

3 Dirichlet分布

3.1 多项式分布

对二项式分布推广到k种结果的情况，此时变为多项式分布，对应的似然函数为

$L=\frac{n!}{n_1!n_2!…n_k!}p_1^{n_1}p_2^{n_2}…p_k^{n_k}=n!\prod_{i=1}^k\frac{p_i^{n_i}}{n_i!} \\$

其中， $\sum_{i=1}^kn_i=n$ ， $\sum_{i=1}^kp_i=1$

3.2 Dirichlet分布

对beta分布推广到k种结果的情况，此时表为Dirichle分布

$P(p_1,p_2,…,p_k|\alpha_1,\alpha_2,…,\alpha_k)=\frac{\Gamma(\alpha_1+\alpha_2+…+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)…\Gamma(\alpha_k)}p_1^{\alpha_1-1}p_2^{\alpha_2-1}…p_k^{\alpha_k-1} \\$

其中 $\sum_{i=1}^kp_i=1$

同2.3，Dirichlet分布的期望为： $E(p_i)=\frac{\alpha_i}{\sum_{i=1}^k\alpha_i}$ 。

3.3 多项式分布与Dirichlet分布共轭

同2.4可得

先验分布

$P(p_1,p_2,…,p_k|\alpha_1,\alpha_2,…,\alpha_k)=Beta(\alpha_1,\alpha_2,…,\alpha_k) \\$

后验分布

$P(p_1,p_2,…,p_k|\alpha_1,\alpha_2,…,\alpha_k,n_1,n_2,…,n_k)=Beta(\alpha_1+n_1,\alpha_2+n_2,…,\alpha_k+n_k) \\$

其中 $\alpha_1,\alpha_2,…,\alpha_k$ 为伪计数， $n_1,n_2,…,n_k$ 为观测的数据。

4 LDA模型

4.1 模型表示

现在问题是这样的，我们有 $D$ 篇文档，对应第 $d$ 个文档有 $N_d$ 个单词。我们的目标是找到每一篇文档的主题分布和每一个主题单词的分布。在LDA模型中，我们需要先假定一个主题数目 $K$ ，这样所有的分布就都基于 $K$ 个主题展开。

对于语料库中的每篇文档，LDA定义了一个生成过程，以1文本生成部分的投骰子为例，如下：

$\vec\alpha\to\vec\theta_d\to z_{d,n}$ 。这个过程表示在生成第 $d$ 篇文档的时候，在D个服从 $\vec\theta_d～Dirichlet(\vec\alpha)$ 的坛子中找到骰子 $\vec\theta_d$ ，然后投掷这枚骰子生成第n个词的主题（topic）编号 $z_{d,n}$ ；
$\vec\eta\to\beta_k\to\omega_{d,n}|k=z_{d,n}$ 。这个过程表示在生成第 $d$ 篇文档第 $n$ 个词的时候，在K个服从 $\vec\beta_k～Dirichlet(\vec\eta)$ 的坛子找到主题编号为 $z_{d,n}$ 的骰子，然后投掷这枚骰子生成单词 $w_{d,n}$

简单来说，步骤1就是 $p(\vec z)$ ，步骤2就是 $p(\vec w|\vec z)$ ，根据条件概率的基本公式可得：

$p(\vec w,\vec z)=p(\vec w|\vec z)p(\vec z) \\$

而LDA的目标就是要找出每个词后潜在的主题，所以为了达到这个目标，需要计算后验概率：

$p(\vec z|\vec w)=\frac{p(\vec w,\vec z)}{\sum_zp(\vec w,\vec z)} \\$

4.2 直接计算

针对上述后验概率的计算，在这里对其计算复杂度进行分析。

按照离散分布边缘概率的处理方式，文档中一个单词 $w_i$ 的全概率为

$p(w_i)=\sum_{k=1}^Kp(w_i,z_i=k)=\sum_{k=1}^Kp(w_i|z_i=k)p(z_i=k) \\$

因此对于上述后验概率计算中的分母 $\sum_zp(\vec w,\vec z)$ ，其表示为所有单词的联合概率，则有

$\sum_zp(\vec w,\vec z)=p(\vec w)=\prod_{i=1}^Vp(w_i)=\prod_{i=1}^V\sum_{k=1}^Kp(w_i|z_i=k)p(z_i=k) \\$

每个单词都对应着 $K$ 个主题，总共有 $V$ 个单词，因此分母计算陷入了 $K^V$ 项难题，这个离散状态空间太大以至于无法枚举。

5 模型求解

在上节结尾可知，现实中，往往很难求出精确的概率，因此常常采用近似推断的方法。近似推断的方法大致可分为两大类：第一类是使用随机化采样完成近似，比如Gibbs采样；第二类是使用确定性近似完成近似推断，比如变分推断。

概率LDA主题模型的评估方法

使用未标记的数据时，模型评估很难。这里描述的指标都试图用理论方法评估模型的质量，以便找到“最佳”模型。

评估后部分布的密度或发散度

有些指标仅用于评估后验分布（主题 – 单词和文档 – 主题分布），而无需以某种方式将模型与观察到的数据进行比较。

使用美联社数据查找最佳主题模型

计算和评估主题模型

自适应网页宽度的 Bilibili 视频

视频

文本挖掘：主题模型（LDA）及R语言实现分析游记数据

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

主题建模的主要功能位于tmtoolkit.lda_utils。

import matplotlib.pyplot as plt   # 绘制结果
plt.style.use('ggplot')
 
# 读取数据
from tmtoolkit.utils import unpickle_file
# 模型评估
from tmtoolkit.lda_utils import tm_lda
# 建立模型评估图
from tmtoolkit.lda_utils.common import results_by_parameter
from tmtoolkit.lda_utils.visualize import plot_eval_results

接下来，我们加载由文档标签，词汇表（唯一单词）列表和文档 – 术语 – 矩阵组成的数据dtm。我们确保dtm维度合适：

doc_labels, vocab, dtm = unpickle_file('ap.pickle')
print('%d documents, %d vocab size, %d tokens' % (len(doc_labels), len(vocab), dtm.sum()))
assert len(doc_labels) == dtm.shape[0]
assert len(vocab) == dtm.shape[1]

现在我们定义应该评估的参数集我们设置了一个常量参数字典。const_params，它将包含不变参数用于计算每个主题模型。我们还设置了varying_params，包含具有不同参数值的字典的不同参数列表：

在这里，我们想要从一系列主题中计算不同的主题模型ks = [10, 20, .. 100, 120, .. 300, 350, .. 500, 600, 700]。由于我们有26个不同的值ks，我们将创建和比较26个主题模型。请注意，还我们alpha为每个模型定义了一个参数1/k（有关LDA中的α和测试超参数的讨论，请参见下文）。参数名称必须与所使用的相应主题建模包的参数匹配。在这里，我们将使用lda，因此我们通过参数，如n_iter或n_topics（而与其他包的参数名称也会有所不同num_topics，不是而n_topics）。

我们现在可以使用模块中的evaluate_topic_models函数开始评估我们的模型tm_lda，并将不同参数列表和带有常量参数的字典传递给它：

默认情况下，这将使用所有CPU内核来计算模型来并行评估它们。

该plot_eval_results函数使用在评估期间计算的所有度量创建³³绘图。之后，如果需要，我们可以使用matplotlib方法调整绘图（例如添加绘图标题），最后我们显示和/或保存绘图。

结果

主题模型评估，alpha = 1 / k，beta = 0.01

请注意，对于“loglikelihood”度量，仅报告最终模型的对数似然估计，这与Griffiths和Steyvers使用的调和均值方法不同。无法使用Griffiths和Steyvers方法，因为它需要一个特殊的Python包（gmpy2），这在我运行评估的CPU集群机器上是不可用的。但是，“对数似然”将报告非常相似的结果。

最受欢迎的见解

1.探析大数据期刊文章研究热点

2.618网购数据盘点-剁手族在关注什么

3.r语言文本挖掘tf-idf主题建模，情感分析n-gram建模研究

4.python主题建模可视化lda和t-sne交互式可视化

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型：数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析