NLP自然语言处理—主题模型LDA可视化案例:挖掘人民网留言板文本数据

最近我们被客户要求撰写关于文本挖掘的研究报告。

由Kaizong Ye,Coin Ge和Liao Bao撰写

随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带。领导干部参与网络问政的制度化正在成为一种发展趋势,这种趋势与互联网发展的时代需求是分不开的。

人民网《地方领导留言板》是备受百姓瞩目的民生栏目,也是人民网品牌栏目,被称为“社情民意的集散地、亲民爱民的回音壁”

基于以上背景,tecdat研究人员对12456条北京留言板里面的留言数据进行分析,探索网民们在呼吁什么。

×

1. 简介

在机器学习领域,LDA是两个常用模型的简称:Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA仅指代Latent Dirichlet Allocation. LDA 在主题模型中占有非常重要的地位,常用来文本分类。


LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。


2. 先验知识

LDA 模型涉及很多数学知识,这也许是LDA晦涩难懂的主要原因。本小节主要介绍LDA中涉及的数学知识。数学功底比较好的同学可以直接跳过本小节。


LDA涉及到的先验知识有:二项分布、Gamma函数、Beta分布、多项分布、Dirichlet分布、马尔科夫链、MCMC、Gibs Sampling、EM算法等。限于篇幅,本文仅会有的放矢的介绍部分概念,不会每个概念都仔细介绍,亦不会涉及到每个概念的数学公式推导。如果每个概念都详细介绍,估计都可以写一本百页的书了。如果你对LDA的理解能达到如数家珍、信手拈来的程度,那么恭喜你已经掌握了从事机器学习方面的扎实数学基础。想进一步了解底层的数学公式推导过程,可以参考《数学全书》等资料。


2.1 词袋模型

LDA 采用词袋模型。所谓词袋模型,是将一篇文档,我们仅考虑一个词汇是否出现,而不考虑其出现的顺序。在词袋模型中,“我喜欢你”和“你喜欢我”是等价的。与词袋模型相反的一个模型是n-gram,n-gram考虑了词汇出现的先后顺序。有兴趣的读者可以参考其他书籍。


2.2 二项分布

二项分布是N重伯努利分布,即为X ~ B(n, p). 概率密度公式为:

[公式]


2.3 多项分布

多项分布,是二项分布扩展到多维的情况. 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…,k).概率密度函数为:

[公式]


2.4 Gamma函数

Gamma函数的定义:

[公式]

分部积分后,可以发现Gamma函数如有这样的性质:

[公式]

Gamma函数可以看成是阶乘在实数集上的延拓,具有如下性质:

[公式]


2.5 Beta分布

Beta分布的定义:对于参数\alpha > 0, \beta > 0, 取值范围为[0, 1]的随机变量x的概率密度函数为:

[公式] (1)

其中,

[公式] (2)


2.6 共轭先验分布

在贝叶斯概率理论中,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。

[公式] (3)

Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。


共轭的意思是,以Beta分布和二项式分布为例,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta分布的形式,这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后续分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。


2.7 Dirichlet分布

Dirichlet的概率密度函数为:

[公式] (4)

其中,

[公式] (5)

根据Beta分布、二项分布、Dirichlet分布、多项式分布的公式,我们可以验证上一小节中的结论 — Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。


2.8 Beta / Dirichlet 分布的一个性质

如果 [公式] ,则

[公式] (6)

[公式] (7)

[公式] (8)

上式右边的积分对应到概率分布 [公式] , 对于这个分布,有

[公式]

把上式带入E(p)的计算式,得到

[公式] (9)

[公式] (10)

[公式] (11)


这说明,对于Beta分布的随机变量,其均值可以用 [公式] 来估计。Dirichlet分布也有类似的结论,如果 [公式] , 同样可以证明:

[公式] (12)

这两个结论非常重要,后面的LDA数学推导过程会使用这个结论。


2.9 MCMC 和 Gibbs Sampling

在现实应用中,我们很多时候很难精确求出精确的概率分布,常常采用近似推断方法。近似推断方法大致可分为两大类:第一类是采样(Sampling), 通过使用随机化方法完成近似;第二类是使用确定性近似完成近似推断,典型代表为变分推断(variational inference).

在很多任务中,我们关心某些概率分布并非因为对这些概率分布本身感兴趣,而是要基于他们计算某些期望,并且还可能进一步基于这些期望做出决策。采样法正式基于这个思路。具体来说,假定我们的目标是计算函数f(x)在概率密度函数p(x)下的期望

[公式] (13)

则可根据p(x)抽取一组样本 [公式] ,然后计算f(x)在这些样本上的均值

[公式] (14)

以此来近似目标期望E[f]。若样本 [公式] 独立,基于大数定律,这种通过大量采样的办法就能获得较高的近似精度。可是,问题的关键是如何采样?对概率图模型来说,就是如何高效地基于图模型所描述的概率分布来获取样本。概率图模型中最常用的采样技术是马尔可夫链脸蒙特卡罗(Markov chain Monte Carlo, MCMC). 给定连续变量 [公式] 的概率密度函数p(x), x在区间A中的概率可计算为

[公式] (15)

若有函数 [公式] , 则可计算f(x)的期望

[公式] (16)

若x不是单变量而是一个高维多元变量x, 且服从一个非常复杂的分布,则对上式求积分通常很困难。为此,MCMC先构造出服从p分布的独立同分布随机变量 [公式] , 再得到上式的无偏估计

[公式] (17)

然而,若概率密度函数p(x)很复杂,则构造服从p分布的独立同分布样本也很困难。MCMC方法的关键在于通过构造“平稳分布为p的马尔可夫链”来产生样本:若马尔科夫链运行时间足够长,即收敛到平稳状态,则此时产出的样本X近似服从分布p.如何判断马尔科夫链到达平稳状态呢?假定平稳马尔科夫链T的状态转移概率(即从状态X转移到状态 [公式] 的概率)为 [公式] , t时刻状态的分布为p(x^t), 则若在某个时刻马尔科夫链满足平稳条件

[公式] (18)

则p(x)是马尔科夫链的平稳分布,且马尔科夫链在满足该条件时已收敛到平稳条件。也就是说,MCMC方法先设法构造一条马尔科夫链,使其收敛至平稳分布恰为待估计参数的后验分布,然后通过这条马尔科夫链来产生符合后验分布的样本,并基于这些样本来进行估计。这里马尔科夫链转移概率的构造至关重要,不同的构造方法将产生不同的MCMC算法。

Metropolis-Hastings(简称MH)算法是MCMC的重要代表。它基于“拒绝采样”(reject sampling)来逼近平稳分布p。算法如下:

  • 输入:先验概率 [公式]

  • 过程:

  • 1. 初始化x^0;

  • 2. for t = 1, 2, … do

  • 3. 根据 [公式] 采样出候选样本 [公式]

  • 4. 根据均匀分布从(0, 1)范围内采样出阈值u;

  • 5. if u [公式]

  • 6. [公式]

  • 7. else

  • 8. [公式]

  • 9. end if

  • 10. enf for

  • 11. return [公式]

  • 输出:采样出的一个样本序列
    于是, 为了达到平稳状态,只需将接受率设置为

[公式] (19)

吉布斯采样(Gibbs sampling)有时被视为MH算法的特例,它也使用马尔科夫链读取样本,而该马尔科夫链的平稳分布也是采用采样的目标分布p(x).具体来说,假定 [公式] , 目标分布为p(x), 在初始化x的取值后,通过循环执行以下步骤来完成采样:

  • 1. 随机或以某个次序选取某变量[公式];

  • 2. 根据x中除[公式]外的变量的现有取值,计算条件概率[公式], 其中[公式];

  • 3. 根[公式]据对变量[公式]采样,用采样值代替原值.


3. 文本建模

一篇文档,可以看成是一组有序的词的序列 [公式] . 从统计学角度来看,文档的生成可以看成是上帝抛掷骰子生成的结果,每一次抛掷骰子都生成一个词汇,抛掷N词生成一篇文档。在统计文本建模中,我们希望猜测出上帝是如何玩这个游戏的,这会涉及到两个最核心的问题:

  • 上帝都有什么样的骰子;

  • 上帝是如何抛掷这些骰子的;

第一个问题就是表示模型中都有哪些参数,骰子的每一个面的概率都对应于模型中的参数;第二个问题就表示游戏规则是什么,上帝可能有各种不同类型的骰子,上帝可以按照一定的规则抛掷这些骰子从而产生词序列。


3.1 Unigram Model

在Unigram Model中,我们采用词袋模型,假设了文档之间相互独立,文档中的词汇之间相互独立。假设我们的词典中一共有 V 个词 [公式] ,那么最简单的 Unigram Model 就是认为上帝是按照如下的游戏规则产生文本的。

  • 1. 上帝只有一个骰子,这个骰子有V面,每个面对应一个词,各个面的概率不一;

  • 2. 每抛掷一次骰子,抛出的面就对应的产生一个词;如果一篇文档中N个词,就独立的抛掷n次骰子产生n个词;


3.1.1 频率派视角

对于一个骰子,记各个面的概率为 [公式] , 每生成一个词汇都可以看做一次多项式分布,记为 [公式] 。一篇文档 [公式] , 其生成概率是 [公式]

文档之间,我们认为是独立的,对于一个语料库,其概率为:

[公式]

假设语料中总的词频是N,记每个词 [公式] 的频率为 [公式] , 那么 [公式] , 服从多项式分布

[公式]

整个语料库的概率为

[公式]

此时,我们需要估计模型中的参数 [公式] ,也就是词汇骰子中每个面的概率是多大,按照频率派的观点,使用极大似然估计最大化p(W), 于是参数 [公式] 的估计值为

[公式]

3.1.2 贝叶斯派视角

对于以上模型,贝叶斯统计学派的统计学家会有不同意见,他们会很挑剔的批评只假设上帝拥有唯一一个固定的骰子是不合理的。在贝叶斯学派看来,一切参数都是随机变量,以上模型中的骰子 [公式] 不是唯一固定的,它也是一个随机变量。所以按照贝叶斯学派的观点,上帝是按照以下的过程在玩游戏的:

  • 1. 现有一个装有无穷多个骰子的坛子,里面装有各式各样的骰子,每个骰子有V个面;

  • 2. 现从坛子中抽取一个骰子出来,然后使用这个骰子不断抛掷,直到产生语料库中的所有词汇

坛子中的骰子无限多,有些类型的骰子数量多,有些少。从概率分布角度看,坛子里面的骰子 [公式] 服从一个概率分布 [公式] , 这个分布称为参数 [公式] 的先验分布。在此视角下,我们并不知道到底用了哪个骰子 [公式] ,每个骰子都可能被使用,其概率由先验分布 [公式] 来决定。对每个具体的骰子,由该骰子产生语料库的概率为 [公式] , 故产生语料库的概率就是对每一个骰子 [公式] 上产生语料库进行积分求和

[公式]

先验概率有很多选择,但我们注意到 [公式] . 我们知道多项式分布和狄利克雷分布是共轭分布,因此一个比较好的选择是采用狄利克雷分布

[公式]

此处 [公式] ,就是归一化因子 [公式] , 即

[公式]

由多项式分布和狄利克雷分布是共轭分布,可得:

[公式] (20)

此时,我们如何估计参数 [公式] 呢?根据上式,我们已经知道了其后验分布,所以合理的方式是使用后验分布的极大值点,或者是参数在后验分布下的平均值。这里,我们取平均值作为参数的估计值。根据第二小节Dirichlet分布中的内容,可以得到:

[公式] (21)

对于每一个 [公式] , 我们使用下面的式子进行估计

[公式] (22)

[公式] 在 Dirichlet 分布中的物理意义是事件的先验的伪计数,上式表达的是:每个参数的估计值是其对应事件的先验的伪计数和数据中的计数的和在整体计数中的比例。由此,我们可以计算出产生语料库的概率为:

[公式] (23)

[公式] (24)

[公式] (25)

[公式] (26)

[公式] (27)


3.2 PLSA模型

Unigram Model模型中,没有考虑主题词这个概念。我们人写文章时,写的文章都是关于某一个主题的,不是满天胡乱的写,比如一个财经记者写一篇报道,那么这篇文章大部分都是关于财经主题的,当然,也有很少一部分词汇会涉及到其他主题。所以,PLSA认为生成一篇文档的生成过程如下:

  • 1. 现有两种类型的骰子,一种是doc-topic骰子,每个doc-topic骰子有K个面,每个面一个topic的编号;一种是topic-word骰子,每个topic-word骰子有V个面,每个面对应一个词;

  • 2. 现有K个topic-word骰子,每个骰子有一个编号,编号从1到K;

  • 3. 生成每篇文档之前,先为这篇文章制造一个特定的doc-topic骰子,重复如下过程生成文档中的词:

  • 3.1 投掷这个doc-topic骰子,得到一个topic编号z;

  • 3.2 选择K个topic-word骰子中编号为z的那个,投掷这个骰子,得到一个词;

PLSA中,也是采用词袋模型,文档和文档之间是独立可交换的,同一个文档内的词也是独立可交换的。K 个topic-word 骰子,记为 [公式] ; 对于包含M篇文档的语料 [公式] 中的每篇文档 [公式] ,都会有一个特定的doc-topic骰子 [公式] ,所有对应的骰子记为 [公式] 。为了方便,我们假设每个词 [公式] 都有一个编号,对应到topic-word 骰子的面。于是在 PLSA 这个模型中,第m篇文档 [公式] 中的每个词的生成概率为

[公式] (28)

[公式] (29)

一篇文档的生成概率为:

[公式] (30)

[公式] (31)

由于文档之间相互独立,很容易写出整个语料的生成概率。求解PLSA 可以使用著名的 EM 算法进行求得局部最优解,有兴趣的同学参考 Hoffman 的原始论文,或者李航的《统计学习方法》,此处略去不讲。


3.3 LDA 模型

3.3.1 PLSA 和 LDA 的区别

首先,我们来看看PLSA和LDA生成文档的方式。在PLSA中,生成文档的方式如下:

  • 1. 按照概率[公式]选择一篇文档[公式]

  • 2. 根据选择的文档[公式],从从主题分布中按照概率[公式]选择一个隐含的主题类别[公式]

  • 3. 根据选择的主题[公式], 从词分布中按照概率[公式]选择一个词[公式]

LDA 中,生成文档的过程如下:

  • 1. 按照先验概率[公式]选择一篇文档[公式]

  • 2. 从Dirichlet分布[公式]中取样生成文档[公式]的主题分布[公式],主题分布[公式]由超参数为[公式]的Dirichlet分布生成

  • 3. 从主题的多项式分布[公式]中取样生成文档[公式]第 j 个词的主题[公式]

  • 4. 从Dirichlet分布[公式]中取样生成主题[公式]对应的词语分布[公式],词语分布[公式]由参数为[公式]的Dirichlet分布生成

  • 5. 从词语的多项式分布[公式]中采样最终生成词语[公式]

可以看出,LDA 在 PLSA 的基础上,为主题分布和词分布分别加了两个 Dirichlet 先验。

我们来看一个例子,如图所示:

上图中有三个主题,在PLSA中,我们会以固定的概率来抽取一个主题词,比如0.5的概率抽取教育这个主题词,然后根据抽取出来的主题词,找其对应的词分布,再根据词分布,抽取一个词汇。由此,可以看出PLSA中,主题分布和词分布都是唯一确定的。但是,在LDA中,主题分布和词分布是不确定的,LDA的作者们采用的是贝叶斯派的思想,认为它们应该服从一个分布,主题分布和词分布都是多项式分布,因为多项式分布和狄利克雷分布是共轭结构,在LDA中主题分布和词分布使用了Dirichlet分布作为它们的共轭先验分布。所以,也就有了一句广为流传的话 — LDA 就是 PLSA 的贝叶斯化版本。下面两张图片很好的体现了两者的区别:

在PLSA和LDA的两篇论文中,使用了下面的图片来解释模型,它们也很好的对比了PLSA和LDA的不同之处。

3.3.2 LDA 解析一

现在我们来详细讲解论文中的LDA模型,即上图。

[公式] , 这个过程表示在生成第m篇文档的时候,先从抽取了一个doc-topic骰子 [公式] , 然后投掷这个骰子生成了文档中第n个词的topic编号 [公式] ;

[公式] , 这个过程表示,从K个topic-word骰子 [公式] 中,挑选编号为 [公式] 的骰子进行投掷,然后生成词汇 [公式] ;

在LDA中,也是采用词袋模型,M篇文档会对应M个独立Dirichlet-Multinomial共轭结构;K个topic会对应K个独立的Dirichlet-Multinomial共轭结构。


3.3.3 LDA 解析二

上面的LDA的处理过程是一篇文档一篇文档的过程来处理,并不是实际的处理过程。文档中每个词的生成都要抛两次骰子,第一次抛一个doc-topic骰子得到 topic, 第二次抛一个topic-word骰子得到 word,每次生成每篇文档中的一个词的时候这两次抛骰子的动作是紧邻轮换进行的。如果语料中一共有 N 个词,则上帝一共要抛 2N次骰子,轮换的抛doc-topic骰子和 topic-word骰子。但实际上有一些抛骰子的顺序是可以交换的,我们可以等价的调整2N次抛骰子的次序:前N次只抛doc-topic骰子得到语料中所有词的 topics,然后基于得到的每个词的 topic 编号,后N次只抛topic-word骰子生成 N 个word。此时,可以得到:

[公式] (32)

[公式] (33)


3.3.4 使用Gibbs Sampling进行采样

根据上一小节中的联合概率分布 [公式] , 我们可以使用Gibbs Sampling对其进行采样。

语料库 [公式] 中的第i个词我们记为 [公式] , 其中i=(m,n)是一个二维下标,对应于第m篇文档的第n个词,用 [公式] 表示去除下标为i的词。根据第二小节中的Gibbs Sampling 算法,我们需要求任一个坐标轴 i 对应的条件分布 [公式] 。假设已经观测到的词 [公式] , 则由贝叶斯法则,我们容易得到:

[公式] (34)

由于 [公式] 只涉及到第 m 篇文档和第k个 topic,所以上式的条件概率计算中, 实际上也只会涉及到与之相关的两个Dirichlet-Multinomial 共轭结构,其它的 M+K−2 个 Dirichlet-Multinomial 共轭结构和 [公式] 是独立的。去掉一个词汇,并不会改变M + K 个Dirichlet-Multinomial共轭结构,只是某些地方的计数减少而已。于是有:

[公式] (35)

[公式] (36)

下面进行本篇文章最终的核心数学公式推导:

[公式] (37) [公式] (38)

[公式] (39)

[公式]

[公式] (40)

[公式]

[公式] (41)

[公式] (42)

[公式] (43)

[公式] (44)


最终得到的 [公式] 就是对应的两个 Dirichlet 后验分布在贝叶斯框架下的参数估计。借助于前面介绍的Dirichlet 参数估计的公式 ,有:

[公式] (45)

[公式] (46)

最终,我们得到LDA 模型的 Gibbs Sampling 公式为:

[公式] (47)


3.3.5 LDA Training

根据上一小节中的公式,我们的目标有两个:

  • 1. 估计模型中的参数[公式] 和 [公式] ;

  • 2. 对于新来的一篇文档,我们能够计算这篇文档的 topic 分布[公式]

训练的过程:

  • 1. 对语料库中的每篇文档中的每个词汇[公式],随机的赋予一个topic编号z

  • 2. 重新扫描语料库,对每个词[公式],使用Gibbs Sampling公式对其采样,求出它的topic,在语料中更新

  • 3. 重复步骤2,直到Gibbs Sampling收敛

  • 4. 统计语料库的topic-word共现频率矩阵,该矩阵就是LDA的模型;

根据这个topic-word频率矩阵,我们可以计算每一个p(word|topic)概率,从而算出模型参数 [公式] , 这就是那 K 个 topic-word 骰子。而语料库中的文档对应的骰子参数 [公式] 在以上训练过程中也是可以计算出来的,只要在 Gibbs Sampling 收敛之后,统计每篇文档中的 topic 的频率分布,我们就可以计算每一个 p(topic|doc) 概率,于是就可以计算出每一个 [公式] 。由于参数 [公式] 是和训练语料中的每篇文档相关的,对于我们理解新的文档并无用处,所以工程上最终存储 LDA 模型时候一般没有必要保留。通常,在 LDA 模型训练的过程中,我们是取 Gibbs Sampling 收敛之后的 n 个迭代的结果进行平均来做参数估计,这样模型质量更高。


3.3.6 LDA Inference

有了 LDA 的模型,对于新来的文档 doc, 我们只要认为 Gibbs Sampling 公式中的 [公式] 部分是稳定不变的,是由训练语料得到的模型提供的,所以采样过程中我们只要估计该文档的 topic 分布 [公式] 就好了. 具体算法如下:

  • 1. 对当前文档中的每个单词[公式], 随机初始化一个topic编号z;

  • 2. 使用Gibbs Sampling公式,对每个词[公式], 重新采样其topic;

  • 3. 重复以上过程,知道Gibbs Sampling收敛;

  • 4. 统计文档中的topic分布,该分布就是[公式]


4 Tips

懂 LDA 的面试官通常会询问求职者,LDA 中主题数目如何确定?

在 LDA 中,主题的数目没有一个固定的最优解。模型训练时,需要事先设置主题数,训练人员需要根据训练出来的结果,手动调参,有优化主题数目,进而优化文本分类结果。


5 后记

LDA 有非常广泛的应用,深层次的懂 LDA 对模型的调优,乃至提出新的模型 以及AI技能的进阶有巨大帮助。只是了解 LDA 能用来干什么,只能忽悠小白。

百度开源了其 LDA 模型,有兴趣的读者可以阅读:github.com/baidu/Famili


References

[1]: Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.

[2]: Hofmann, T. (1999). Probabilistic latent semantic indexing. In Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval (pp. 50-57). ACM.

[3]: Li, F., Huang, M., & Zhu, X. (2010). Sentiment Analysis with Global Topics and Local Dependency. In AAAI (Vol. 10, pp. 1371-1376).

[4]: Medhat, W., Hassan, A., & Korashy, H. (2014). Sentiment analysis algorithms and applications: A survey. Ain Shams Engineering Journal, 5(4), 1093-1113.

[5]: Rick, Jin. (2014). Retrieved from flickering.cn/数学之美/2014/06/【lda数学八卦】神奇的gamma函数/.

[6]: 通俗理解LDA主题模型. (2014). Retrieved fromblog.csdn.net/v_july_v/.

[7]: 志华, 周. (2017). 机器学习. 北京, 北京: 清华大学出版社.

[8]: Goodfellow, I., Bengio, Y., & Courville, A. (2017). Deep learning. Cambridge, MA: The MIT Press.

[9]: 航, 李. (2016). 统计学习方法. 北京, 北京: 清华大学出版社.



数量与情感

朝阳区群众最活跃

图表

从上图可以看出不同地区留言板的情感倾向分布,总的来说,负面情感留言数目和积极情感相差不多,负面情感留言较多,占比46%,积极情感留言占比42%,中立情感的留言占比11%。


自适应网页宽度的 Bilibili 视频

视频

文本挖掘:主题模型(LDA)及R语言实现分析游记数据

探索见解

去bilibili观看

探索更多视频

从地区来看,活跃在各大媒体的“朝阳区群众”留言数目也是最多的,其次是海淀区,昌平区。因此,从情感分布来看大部分留言还是在反应存在的问题,而不是一味赞美或者灌水。

主题分析

外地户口问题呼声最高

接下来,我们对于语料进行LDA建模,就是从语料库中挖掘出不同主题并进行分析,换言之,LDA提供了一种较为方便地量化研究主题的机器学习方法。

我们使用最大似然估计进行最优化主题个数的选取。当主题个数定为20的时候,似然估计数最大,即留言板数据分为20个主题的可能性比较大。

将模型生成的20个主题中的前五个高频词取出,如下表所示。

然后我们将占比最高的前六个主题与它们的情感倾向进行分析。

图表

从上图可以看出大家关于6大主题的讨论:

主题1反应孩子,外地户口办理的问题是最多的,反应了外地落户北京相关的难题(e.g.父母在京工作20多年,儿女上学却因户口问题不能进入好的高校就读)。

主题2是反应环境改造及棚户改造(e.g.棚户房屋破旧、墙面潮湿、上下水管道老化腐烂现象严重经常造成跑冒滴漏,遇到雨雪天气,道路积水、泥泞不堪,大院居民尤其是老人小孩出行非常不便)。

主题3是反应高考和医保(e.g.外地人衷心的希望政府能关注一下孩子在北京的高考问题)。

主题4是汽车摇号政策(e.g.现行的摇号方案是不可行,治标不治本.有的摇号是一个人摇不上,全家人都出动;有的是想买车根本摇不号;有的是不想买车就摇上了)。

主题5是反应工资和租房问题(e.g.我是外地退休教师。因为孩子在北京工作,故到北京帮助孩子料理家务,以支持孩子工作。因为北京房价昂贵,我们买不起大房,三代人只能挤着住。我想问问市长,我们是否也能住公租房)。

主题6是违法建筑(e.g.XX雅苑许多一层业主私搭乱建成风,且物业无能,造成极大的安全隐患)。


python主题建模可视化LDA和T-SNE交互式可视化

阅读文章


地区、主题与情感得分

接下来我们分析了不同主题和地区的情感倾向分布。从下图可以看出,主题3高考和医保、主题6 违法建筑、主题13教育拆迁的留言内容中积极情感占较大比例。

图表

我们发现在不同主题中情感得分最高的地区中海淀区最多,其次是朝阳区和大兴区。同时也可以发现,情感得分最高的是在主题11居民生活下的朝阳区留言内容。总的来说,根据积极情感的内容分布来看,主题3高考和医保、主题6 违法建筑、主题13教育拆迁的留言内容中表现出较好的反馈。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

数据样例

投诉时间投诉标题投诉内容有无回复
April 10, 2006希望北京变化更大,为外地残疾人进京办事提供便利条件…希望北京变化更大,为外地残疾人进京办事提供便利条件.
August 13, 2006我深有体会,您牢记了全心全意为人民服务的宗旨,心里…我深有体会,您牢记了全心全意为人民服务的宗旨,心里有党中央和人民,您是一位人民心中的好书记。
September 14, 2006北京的交通太差了北京的交通太差了
May 10, 20079字头的公交车八折太贵了,目前车没有开空调,可是空…9字头的公交车八折太贵了,目前车没有开空调,可是空调车按着有空调时的票价收,太不合理,让住郊区在市里上班的普通百姓难以承受。一半的收入都用于买车票了。请市长为这些人考虑考虑吧!
May 10, 2007王市长讲得好!这种媚富低俗的广告大多出现在房地产业…王市长讲得好!这种媚富低俗的广告大多出现在房地产业,而且都是骗人的陷阱,不仅出现在北京,全国各地满目皆是!与和谐社会极不协调!这是政府的有关部门管理缺位所致!(老党员)
May 22, 2007北京的水本来就紧张,还无限地让外地人随便进北京,这…北京的水本来就紧张,还无限地让外地人随便进北京,这种无序状态该怎么办?
June 7, 2007郊区的9字开头的公交车为什么还不降价?为什么还是8…郊区的9字开头的公交车为什么还不降价?为什么还是8折?为什么还不能与市里的公交车一样? 我们由市里迁出来,去市里上班,访友,多花太多钱,要知道我们收入都很低。
September 3, 2007人民相信你人民相信你
December 7, 2007加油呀!好好干,家乡父老支持你了加油呀!好好干,家乡父老支持你了!!!!
December 13, 2007民房商用问题严重! 宣武区槐柏树南里小区东侧民房商民房商用问题严重! 宣武区槐柏树南里小区东侧民房商用问题严重!不少居民都将阳台和围杆拆除,重新扩建为商铺,多数居民则对外出租经营,群众反映强烈。夏天路边绿地到处是搭晒的衣物,卫生脏乱差,有的出租制作铝合金门窗,扰民严重。违章广告到处悬挂,影响市容,邻里之间经常产生矛盾。 城管接到举报处理也是敷衍了事,违章建筑也是建了拆,拆了建。对于民房商用这一问题该如何解决?是否有法可依? 希望我所说的问题能给予关注,希望我们的居民能真正过上安居乐业的社区生活
February 18, 2008祝王区长一切都好祝王区长一切都好.
March 19, 2008好市长一个好市长一个
March 27, 2008祝王区长生活幸福,工作顺利,万事如意. 山西李铁英祝王区长生活幸福,工作顺利,万事如意. 山西李铁英
April 23, 2008市长您好!我是西藏的一位普通百姓.西藏今天的发展是市长您好!我是西藏的一位普通百姓.西藏今天的发展是和你打下良好的基础是分不开的,作为西藏百姓我代表西藏人民感谢您!感谢您在西藏期间,为西藏人民所作出的贡献.
April 28, 2008为奥运 我天天在北沙滩桥林翠路附近经过,看看只有1…为奥运 我天天在北沙滩桥林翠路附近经过,看看只有100多天就开奥运了,可这片地还是那么多土,一片狼藉, 这两天增加了不少民工,可仔细看看他们究竟有多少人在认真地、热火朝天地干活?不少人坐在地上傻望 、抽烟、晒脚丫,怎么就没人管呢,难道就得留点在奥运前加班赶,或草草对付了事吗?这点活他们不会 累,还是工资给少了?我急啊,总之我觉得就得有监工的,应该限时完成某工量。我认为市政府应该一级 一级的负起责来进行监管,把看是小事尽早尽快完成,别拖了,加紧点还来得及!我还希望市政动员全民 义务为奥运劳动,把这片地真正美好地奉献给参加奥运的各国宾客。兵戎
July 6, 2008前丰伯南区无北大门,居民开车出行极不放便.群众多次…前丰伯南区无北大门,居民开车出行极不放便.群众多次反映但无人管理!请您过问!谢谢!
July 8, 2008建议您对普通市民急需的廉租房给予关注,谢谢你建议您对普通市民急需的廉租房给予关注,谢谢你。
July 8, 2008刘书记,你好? 打搅你了,北京的房价太高了,请您安…刘书记,你好? 打搅你了,北京的房价太高了,请您安排好经济适用房的建设,以解决普通市民的住房问题。谢谢您了!
July 15, 2008当官不为民做主 不如回家卖红薯 希望首都经济好 人…当官不为民做主 不如回家卖红薯 希望首都经济好 人民幸福 环境好 希望你的区也更好
July 16, 2008建议北京公园能够实行上午9:00前晚上6:00后实…建议北京公园能够实行上午9:00前晚上6:00后实行免票,以最大限度地发挥其作用,给市民晨练和晚饭后散步提供一个好的去处
July 16, 2008建议北京公园能够实行上午9:00前晚上6:00后实建议北京公园能够实行上午9:00前晚上6:00后实行免票,以最大限度地发挥其作用,给市民晨练和晚饭后散步提供一个好的去处
July 17, 2008市长,您好!我知不道你能看到这个帖子不,但是我还是市长,您好!我知不道你能看到这个帖子不,但是我还是要说。我是一名保安,我不知道该怎样说。我感觉我们做保安的到底好不好,北京保安老让别人骂,他们不尊重我们。我知道现在有些保安素质低,犯罪的也多,但是,为什么他们会犯罪呢?我们工资低,吃的差,保安公司和物业公司给我们来了个《双掐》,我们自身问题多,这不怪我们呀!我们公司不培训我们,我们觉悟也低,公司也不教育,他们光知道他们的利益,从来不顾我们的感受,我们公司问题太多拉。希望您能够关心我们,我也祝海淀区发展的更好,谢谢拉!
July 19, 2008不知本人是否和照片一样漂亮?(海洋的风)不知本人是否和照片一样漂亮?(海洋的风)
July 21, 2008刘书记你也是北京的老领导了,东直门交通枢纽已开工七…刘书记你也是北京的老领导了,东直门交通枢纽已开工七八年了,为什么还不能投用,查查责任应谁负.
July 24, 2008市长,现在北京郊区的农村纪检监察工作急需完善,农民市长,现在北京郊区的农村纪检监察工作急需完善,农民反映的问题得不到实质性的解决。昌平沙河豆各庄的村民上访好几年了,总是被拖延,纪检进村的调查结果也不公布。(村民)
July 26, 2008奥运会即将召开,领导肩上的担子不轻啊!(曹秀)奥运会即将召开,领导肩上的担子不轻啊!(曹秀)
July 27, 2008在北京想上大学,缺钱,能不能贷款,安徽铜陵为什么贷在北京想上大学,缺钱,能不能贷款,安徽铜陵为什么贷款不行?(周文化)
July 28, 2008刘书记:实行单双号出行,效果非常好,反映更好!望这…刘书记:实行单双号出行,效果非常好,反映更好!望这种有利于北京市出行、有利于北京形象、环境、便捷等利好,建议长期实行下去!不要仅仅是为了奥运会!若不长此以往,很易给百姓留下政府又再做表面文章。(一位记者)
July 29, 2008亲爱的市长伯伯,我家小区(大兴区旧宫镇红星北里小区亲爱的市长伯伯,我家小区(大兴区旧宫镇红星北里小区)已经连着四天左右晚上停电了,由于电容不够电压跟不上导致的。小区居民酷热难耐,集体半夜遛弯,大家一直忍耐着,不想在这个特殊的时期给政府添麻烦。但是一连几天停下来我们实在是万分焦急,中国人翘首以盼的奥运会即将到来,我已无缘现场为祖国的健儿加油助威,千万别让我连直播都得去别人家看啊!!!郁闷死了~~(小吉)
July 29, 2008刘书记您好,新颁布施行的《关于违反信访工作纪律适用刘书记您好,新颁布施行的《关于违反信访工作纪律适用若干问题的解释》和《关于违反信访工作纪律处分暂行规定》真是太好了.希望能切实解决信访难,时间长,没实效的现状.更希望它是一个有力的监督纪律规定,能够落实到实处.(昌平沙河豆各庄村民)
August 1, 2008可能是名字很特别的原因,作为江西同乡和本家,希望你可能是名字很特别的原因,作为江西同乡和本家,希望你不但是我们邱家的骄傲,而且是人民称颂的好公仆。江西永平写(过客)
August 3, 2008市长大人您好!提议;如果在北京大街小巷都挂上(北京…市长大人您好!提议;如果在北京大街小巷都挂上(北京的亲戚来了)的字样,这样会让来自世界各地的朋友感觉到中国人的温情. 人们常说第一印象的很重要的.(傲然)
August 4, 2008尊敬的市长大人:北京歌华集团安装机顶盒、增加收费后尊敬的市长大人:北京歌华集团安装机顶盒、增加收费后,未安装机顶盒的电视就没办法收看了。奥运会马上开幕了,电视画面却都是花花嗒嗒,不能收看。是否太不通情理吧!(fuchaofan)
August 7, 2008建议奥运期间各个建筑都挂国旗建议奥运期间各个建筑都挂国旗.
August 11, 2008北京市有的企业军转干部政策落实的很不好,请刘书记过北京市有的企业军转干部政策落实的很不好,请刘书记过问(诚言世态)
August 11, 2008林区长,你好!着先向您问候一声:您辛苦了!希望你能林区长,你好!着先向您问候一声:您辛苦了!希望你能够多注意身体,身体是革命的本钱!我是土生土长的大兴人,几十年看到的是自己的家乡发生着日新月异的变化,内心对自己家乡的未来发展及美好远景充满了信心,相信大兴的将来会更美好,会更加兴旺发达,人民生活会更加丰富多采,更加和谐! 林区长,为了自己的家乡建设的更好,为把大兴建设成一个整洁,环境优美的城市,我提一些建议供林区长在改进城区环境方面做为参考. 第一,帝园商场十字路口以东、以南至大兴宾馆十字路口再往南;星城商厦往西到黄村五小,这段道路交通堵塞严重,且星城商厦往西摊商太多,很是混乱,建设能否改善或根治。 第二,城区还应该加大绿化面积,建议每年植树节区领导带领区民参加义务植树,主要是城区绿地空缺的地方以及路两边的绿化。 谢谢林区长!希望在书记与您及区领导的带领下,大兴会建设得更美、更加靓丽!(黄山)
August 14, 2008啥时才能解决我们征地农转工的问题呀???农保转不了啥时才能解决我们征地农转工的问题呀???农保转不了社保,农龄国家不承认,超转人员成了民政局的救助对象。转工后没有工作,待安置期间生活不住费克扣不发。(老农)
August 14, 2008期待早日解决2000年回龙观申奥绿化拆迁户的信访问期待早日解决2000年回龙观申奥绿化拆迁户的信访问题,相信区政府(老百姓)
August 15, 2008看了一下给领导们的留言,建议改进一下这种留言方式看了一下给领导们的留言,建议改进一下这种留言方式。有很多留言都是要求解决具体问题的,不是说不能给书记说,但是事实上不可能凡事都管,有许多问题完全可以着有关部门和分管领导解决。现在的问题是给书记的说话方式很方便,可是要给那些人留言却很难,建议所有的领导都有这么一个留言信箱。(北京市民)
August 19, 2008您好!我家住在丰台区西南四环的怡海花园,每天晚上都您好!我家住在丰台区西南四环的怡海花园,每天晚上都有恶臭的臭气在空气中弥漫,听说是这边有个垃圾处理厂,能不能把其搬迁出该地区。现在有时候白天也是如此。室内总要换气阿!老百姓苦不堪言!这后悔把房子买在这个地方!请您在百忙中解决!(奋发图强有所作为)
August 20, 2008烟草公司办烟草证要北京居民房产证这就是歧视外地商人烟草公司办烟草证要北京居民房产证这就是歧视外地商人
August 21, 2008刘书记:奥运办得好呀,给世界强烈震憾!给国民信心倍刘书记:奥运办得好呀,给世界强烈震憾!给国民信心倍增!您的功劳很大.(WXF)
August 22, 2008希望能给新建的小区开通公交路线,方便住户出行希望能给新建的小区开通公交路线,方便住户出行。
August 23, 2008区长我们荣丰2008小区旁边的二条路(一条通往北的区长我们荣丰2008小区旁边的二条路(一条通往北的一条通往西客站南广场)的什么时候同开?(张杰森)
August 25, 2008郭市长您好:北京的水本来就紧张,而在通州区宋庄镇自郭市长您好:北京的水本来就紧张,而在通州区宋庄镇自己的小水厂向宋庄管理的地区供水,每天早上用水时水是不能用的。水太臭了,要先放水,放一阵才可用。中午回家时水又臭了,并且水费和市自来水集团的水费一样。政府应加强管理
August 25, 2008市长真的来此地看吗?先提个问题试试吧:奥运前新修通市长真的来此地看吗?先提个问题试试吧:奥运前新修通的土城路东段,有三道机动车线,非机动车道本来不宽,现已快变成机动车停车场了,剩余非机动车道狭窄,甚至有的餐馆网吧前横停一串车,把非机动车逼上机动车道.请市长关注如何改善骑自行车人出行环境.(骑自行车者)
August 25, 2008刘书记,您辛苦了,代表江苏网友谢谢您,您是我们江苏…刘书记,您辛苦了,代表江苏网友谢谢您,您是我们江苏人的骄傲,奥运会办的这么成功,我们非常非常非常的高兴,中国人终于被世界认识了,您的功劳太大了,谢谢您的特殊贡献(罗同志)
August 26, 2008你好刘书记:奥运很成功!全国人民都高兴。可也有些遗你好刘书记:奥运很成功!全国人民都高兴。可也有些遗憾。中央电视台在整个奥运期间把赛场休息或者暂停期间的啦啦队的精彩表演全删除了。一个镜头都没有。倒是插播的广告不少!(小龙)
August 27, 2008刘书记:我们是外调到北京工作的中央企业正式员工,已刘书记:我们是外调到北京工作的中央企业正式员工,已经在北京工作四年了,如今还是外地户口,单位办理进京户口名额有限,实行“排队”,每年解决1一2个,如此“排队”要到20年后。问题困难很多。两地分居和子女入学、就业都是问题。这也不是“以人为本”,也不利于社会和谐。敬请给予关注解决。(苏彭)
August 27, 2008刘淇书记:北京市贫困人口的 医保工作能否加快步伐给…刘淇书记:北京市贫困人口的 医保工作能否加快步伐给办成???农村人口都办了。首都应是模范和榜样,穷人遥遥无期的等待着。。。是否能限定办成医保的时间?廉住房 廉租房的办理是否能加快速度???(目前的穷人一般都是因病;多少年全自费,一贫如洗。。。。)(poor)
August 27, 2008好市长 相信在您的领导下北京会越来越好(走路人好市长 相信在您的领导下北京会越来越好(走路人)
August 29, 2008市长您好!奥运会已成功举办!但奥运会后的国民经济将市长您好!奥运会已成功举办!但奥运会后的国民经济将是怎么样发展?
August 29, 2008公园内汽车太多.警车私车(李德)公园内汽车太多.警车私车(李德)
August 30, 2008尊敬的郭市长 北京作为一国的首都,本应在各个方面走尊敬的郭市长 北京作为一国的首都,本应在各个方面走在全国前列. 然而,乙肝病毒携带者在北京就业面临诸多歧视,北京市卫生局至今不作为,致使很多用人单位查乙肝五项, 很多大学生在入职体检中被查出乙肝病毒携带即被解职, 郭市长,看了您的简历,你也是大学毕业.想想,如果一个大学生刚毕业就被解职,将是一个多么大的打击.虽然有法律,但是很多应届毕业生无力打官司,因为没钱. 我马上就要毕业了,很担心.希望您能重视此问题,真正贯彻落实 以人为本. 谢谢 致敬! 一个即将毕业的大学生(一个即将毕业的大学生)
September 1, 2008刘书记,北京市的公交发展,单双号限行都非常好。但我刘书记,北京市的公交发展,单双号限行都非常好。但我们附近的公交很不方便,附近只有510,早晨上班非常拥挤,而且不太准时,站点设置也有问题,如林萃路和奥林春天只隔几十米,影响了速度。希望能增加车次,这样我们也愿意永远坐公交而不开车。谢谢。(奥运村附近居民)
September 3, 2008李区长您好!丰台榆树庄要评文明村了,按说是好事是丰…李区长您好!丰台榆树庄要评文明村了,按说是好事是丰台的光荣,然而事实上是有非常大的漏洞的,弄不好可能会给丰台带来更大的损失和隐患,我老了走不动了,希望您派人去排查一下榆树庄南半区地下挖掘的如何?,他们是不会说的,尽是报喜不报忧.(阳光)
September 4, 2008拆迁问题:今年是我们搬出来的第6个年头了,沙河小区拆迁问题:今年是我们搬出来的第6个年头了,沙河小区的恋日水岸项目拆迁回迁问题,需要县领导重视,不知道什么时候能叫老百姓真的有个家。支持政府的环境整改,我们不能后半辈子都过着租房的日子。难道第7年还住不进去……人生有多少个十年等待,希望能尽快给与解决。(莫言)
September 4, 2008总感觉丰台区的市容环境滞后于周边城区,为什么?丰台…总感觉丰台区的市容环境滞后于周边城区,为什么?丰台区要大力解决好外地人聚集地区的治安和卫生环境问题。(老杨)
September 4, 2008您好,刘书记,近日看了全国网友的留言,大都在说政府您好,刘书记,近日看了全国网友的留言,大都在说政府机关部门和公务员的,真值得深思啊(深思后办实事)
September 5, 2008能不能把教育搞上去?(势头)能不能把教育搞上去?(势头)
September 5, 2008您好;望您切察南山村几家严重污染生产大白粉厂。私自您好;望您切察南山村几家严重污染生产大白粉厂。私自乱采烂挖。开山炸石乱象。六七月份因乱开白石竟还砸死一个体小老板。采矿证,炸药使用证,安全生产许可证,他们没有任何手续。国土,公安,安监,都干嘛去了。平谷作为生态涵养区。岂能容忍他们这样嚣张。( )
September 7, 2008哎,这拆迁,回迁政府能给百姓做主吗? 密云县的恋日哎,这拆迁,回迁政府能给百姓做主吗? 密云县的恋日水岸小区,位于密云县沙河村,拆迁都6年多了,还不能回迁,是不是北京市唯一一个这么久不能回迁的小区,领导们都在吃闲饭吗? 谁都想在自己的家里住,有谁愿意长期寄住在人家的房檐下?(群众的呼声)
September 10, 2008北京落实劳动法,当前还有一些企业克扣员工押金,不签北京落实劳动法,当前还有一些企业克扣员工押金,不签劳动合同,假签,工资克扣。请管一管这类在北京的正规保安公司。
September 11, 2008尊敬的刘书记您好: 我是一名晓海出租车司机,可是晓尊敬的刘书记您好: 我是一名晓海出租车司机,可是晓海出租公司将股权卖给了天明公司,我和公司的《劳动合同》,《承包营运合同》均已到期,但是我原来交的出租车保证金公司不给如数退还,我该怎么办?请市长给个说法,我该怎么办(罗艳辉)
September 14, 2008有效地解决北京的交通秩序问题不能堵只能靠疏,堵只能…有效地解决北京的交通秩序问题不能堵只能靠疏,堵只能解决一时且人民承担代价,疏才能解决根本长远问题且人民受益。故举全市之力兴建地铁,可免费乘坐地铁、公交,问题解决了人民还高兴,政绩又有了一举三得,何乐而不为呢?(农民工)
September 14, 2008出台政策解决符合一定条件的外地北京人户口问题,封闭…出台政策解决符合一定条件的外地北京人户口问题,封闭只能障阻经济发展,排外必然导致地区落后,这是规律啊!(外地北京人)
September 16, 2008流浪猫的节育,政府能不能组织一下?(爱心)流浪猫的节育,政府能不能组织一下?(爱心)
September 16, 2008李区长:我是一名从事了8年社区工作者,您看过我们的李区长:我是一名从事了8年社区工作者,您看过我们的工资条吗?希望您能为我们这些基层工作者“撑腰”,为我们增加点福利
September 17, 2008政府就要加大力度来 治理单双号行驶汽车 一是有利于政府就要加大力度来 治理单双号行驶汽车 一是有利于环境而是给交通堵塞有个治理
September 17, 2008书记,你好:我是四川省西充县的一名乡村教师,我想问…书记,你好:我是四川省西充县的一名乡村教师,我想问书记我县领导违法操作搞“考调”教师进城有人管吗?对于他们的做法,全县教师很气愤,却没有哪位官员愿为我们这些老师说话,有钱有关系就可以报名考试,这还叫公开招考吗?书记帮帮我们这些山村里的教师吧!
September 18, 2008担任区长责任重大,望您能以平常心态做人,以公仆心态担任区长责任重大,望您能以平常心态做人,以公仆心态做事!(中央团校吴老师)
September 19, 2008丰台区由东到西,由富到穷,方庄和卢沟桥什么比例,为…丰台区由东到西,由富到穷,方庄和卢沟桥什么比例,为什么孤僻这个城区,很多地方最基本的交通都达到不了,离市区内根本就没多远,和贫困山区一样,规划有待重视!(张)
September 19, 2008祝王区长一切都好祝王区长一切都好.
September 19, 2008群众的留言要多看看这样才不会迷失方向群众的留言要多看看这样才不会迷失方向
September 19, 2008陈区长你好: 咱们朝阳区劳动仲裁的效率也太低了,都陈区长你好: 咱们朝阳区劳动仲裁的效率也太低了,都开庭好几个月了,到现在还没有结果呢。希望您能关注一下。(深蓝)
September 19, 2008官员腐败95%都是由包二奶开始的,或者搞男女关系开…官员腐败95%都是由包二奶开始的,或者搞男女关系开始的。众所周知,近年来,“包二奶”现象愈演愈烈,已严重影响到家庭稳定,严重败坏了社会风气。所以必须从领导干部的生活作风抓起。我是现在受害的家属。希望您能够重视。( 12)
September 20, 2008希望对海淀区正白旗树村的环境好好的治理治理 我在那…希望对海淀区正白旗树村的环境好好的治理治理 我在那里的亲身感受是:正白旗树村是全国全北京市环境最差的一个地方 垃圾就堆在路边 厕所臭不可闻 上一会厕所 好久还能闻到那一股难闻的气味 由于垃圾的乱堆乱放 一到夏天 引得蚊蝇乱飞 蚊蝇越来越多 晚上人都咬得睡不好 而且更有甚者 垃圾堆多了有时就会用焚烧的办法 这对于广大人的健康是特别的不好 希望能加大力度 好好的治理治理那的环境 让北京的每一片地方都能成为绿色的美好家园(一个关心环保的人)
September 20, 2008郭市长:北辰购物中心和炎黄艺术馆旁的过街天桥的桥上郭市长:北辰购物中心和炎黄艺术馆旁的过街天桥的桥上和桥下,除奥运会期间外,一直是外地乞丐和叫卖刻章、办证、卖发票人的集中地。9月19日北辰过街天桥上的那个乞丐又回来了,开始趴地上行乞,我们来回走到那里心理很别扭、很难受。您能不能派人管一管。我们盼望能有一个清净的环境。谢谢!(鸟巢周边一居民)
September 20, 2008区长您好.海淀区香山地区9月开始收房屋出租税.由外…区长您好.海淀区香山地区9月开始收房屋出租税.由外来人口办公室出面.不交罚钱.咱国家有这个税吗?(区长您好.)
September 21, 2008单双号限行其实是个好事:污染减少了,交通压力缓解了单双号限行其实是个好事:污染减少了,交通压力缓解了,浪费减轻了,更重要的是拉近了人与人之间的关系,“拼车”促成了许多新的朋友,在“拼车”中增进人际交往,促进社会和谐,不是很好么?当然“拼车”“限行”“单双号”等新名词的出现也在2008年极大地丰富着祖国的语言词汇,好事啊! 但是,把好事办好是难的,就像一些专家所说,限行政策是否会影响到公民权利?这种措施究竟应该成为一种长久政策还是权宜之计? 一种理想的状态:如果不是强制措施,而是一种自觉的社会习惯或是渐趋流行起来的新的社会风尚,单双号与拼车将会更加受到欢迎。然而,在我们的城市里,如果不靠强制,这种风尚真的能够实行么? 那么,把命令的强制改为政府的建议,由政府机构和公务员率先做出表率,呼吁社会知名人士积极参与,媒体加大宣传,及时是一些时尚节目也可以通过宣传优势将“拼车”鼓吹为时尚,以吸引年轻的有车族。这样,是不是会逐渐的形成风气呢?呵呵,移风易俗,是个好东西!试试看吧。(狷夫)
September 21, 2008北京2008奥运会举办成功证明了中国的实力着实是强北京2008奥运会举办成功证明了中国的实力着实是强大的(海外来着)
September 21, 2008八里桥或叫通惠北路新修的铁路地下过街通道便民,很好八里桥或叫通惠北路新修的铁路地下过街通道便民,很好!但好事只做了一半,没有路灯,无人打扫,情况很糟糕!
September 21, 2008刘书记您好: 现在外国媒体高评我们奥运期间环境相当刘书记您好: 现在外国媒体高评我们奥运期间环境相当的好,大家都说北京奥运会开的非常成功,我们普通市民也感到非常的高兴。但是有一个疑问就是奥运会后我们的环境是否还能保持好?据首钢传来的消息确是现在三座高炉在同时生产,一炉,三炉和二高炉(人大定好的于2008年三月拆的高炉)。石景山上空的能见度已大不如奥运期间了。该停的不停,该拆的不拆,首钢怎么就那么牛气冲天?(市民)
September 22, 2008北京市奥运期间对车辆的限行实际上仅是对老百姓的限制…北京市奥运期间对车辆的限行实际上仅是对老百姓的限制。不少单位的交通科想尽办法让享受公车的领导天天有车坐,单位内调剂不了就不惜花钱租车,有门路的人还能搞到车证。我认为坐公车的领导应带头响应政府的号召,没有车的日子就乘公交或步行、或拼车。如果领导干部不以身作则,普通百姓怎能心甘情愿地服从政令?(薇薇)
September 22, 2008北京市奥运期间对车辆的限行实际上仅是对老百姓的限制北京市奥运期间对车辆的限行实际上仅是对老百姓的限制。不少单位的交通科想尽办法让享受公车的领导天天有车坐,单位内调剂不了就不惜花钱租车,有门路的人还能搞到车证。我认为坐公车的领导应带头响应政府的号召,没有车的日子就乘公交或步行、或拼车。如果领导干部不以身作则,普通百姓怎能心甘情愿地服从政令?(薇薇)
September 22, 2008因物业费问题,物业公司不给开采暖证明,没有采暖费,…因物业费问题,物业公司不给开采暖证明,没有采暖费,穷人怎么过冬。(穷人)
September 23, 2008市长好:关于北京汛期排水工作的请示。 今年奥运成功市长好:关于北京汛期排水工作的请示。 今年奥运成功,除了北京市民、政府上下一心,团结合作;一个不可忽视的原因是天公作美;没有发生暴雨引发积水阻塞交通的事故。而历年以来,北京市政府除了从法律、宣传角度努力解决这个问题;但是直到去年发生了因暴雨而导致的市政排水系统不畅、交通严重堵塞的老问题。笔者反复调查、研究、走访、请教之后得出一个方案:我市目前使用的下水道排水口位于低洼地下方开口,枯枝落叶等杂物会在污水的冲刷下汇集在排污口,尤其是立交桥下,极其容易脏堵。在我的方案中:参考发达国家经验,将排污口的形状略作修改,在靠近马路崖一侧垂直开口,变平面排污为立体排污,即便发生脏堵事故,仍然能继续工作;且,在流速急剧增高时,能实现自动清污,将污物直接挤入下水道中。 本改造,工程量不大,排污口采用铸铁或者水泥制造,成本增加不多!而且能受到立竿见影的作用,建议首长利用旱季时间进行部分地区的试点。如果成效卓著可以全市乃至全国推广。 以上是个人的建议,并不十分成熟,妥否?请市长指示!谢谢!(污泥浊水)
September 24, 2008陈刚区长您好!朝阳区面积大,涉及的地方也多,但希望…陈刚区长您好!朝阳区面积大,涉及的地方也多,但希望对城乡交接处也就是四环以外的地区多给予关心,无论是环境卫生、犬养大狗、环保(烧烤)等,问题还是不少,有一烧烤的从奥运会前就烧直到现在没有仃止过,环保局同志说老板是个无赖,就是不改,难道我们对这样违法者就没有办法了,要知道支持违法就是打击守法,创建和谐社会是在法制基础上,否则将是不和谐的根源,希望政府职能部门认真执法、为民办实事(王凤琴)
September 27, 2008郭市长:在房山琉璃河与韩村河交界处,矗立着一个“合郭市长:在房山琉璃河与韩村河交界处,矗立着一个“合法”(靠打通各级关系,骗得执照)的“北京极易化工有限公司”,这是一个生产“Ⅳ-苯酚,Ⅵ-苯酚”为主的重污染化工企业,自开业以来,我们反映了多少次了,都被这个公司的郭骄阳(老板)“摆平”了。请您安排得力的、有立场的公务员实地暗访,帮我们老百姓清走矗在家门口的“定时炸弹”吧!!!(凡龙丰)
September 29, 2008陈区长您好: 朝阳法院审理民事纠纷,多处开庭,但都陈区长您好: 朝阳法院审理民事纠纷,多处开庭,但都是有书记员审理,我把意见提交到,法院领导,政法委,都没有回音.
September 29, 2008郭市长!北京的万寿祠是最宰人的旅游景点了,强行让游郭市长!北京的万寿祠是最宰人的旅游景点了,强行让游客捐所谓的功德牌,分99元、999元、9999元三种,还让几个和尚给人看相算命,真可恶,把首都的形象丢尽了!强烈建议北京市把这些可恶之徒腰斩于市,以净化首都形象!
October 5, 2008我是昌平区沙河老牛湾一名普通百姓没天早出晚归到昌平我是昌平区沙河老牛湾一名普通百姓没天早出晚归到昌平国泰附近的一个私人店面上班,(我知道昌平像我这样的人大有人在)我的工作时间是早九点到晚八点半,等车和坐车一般晚上九点半到十点才到家,看到我其他的同事坐车九点就能到家真是羡慕,我想问一下昌平公交车那么多为什么没有一辆车能直接到二六一沿线的呢,好不容易盼着有一辆能直接到的小53路,又脏又破而且晚七点就没车了,希望领导出面帮助我们这些无助的人。(希望)
October 5, 2008金树东同志请你督促一下沙河镇政府的卫生部门请他们认金树东同志请你督促一下沙河镇政府的卫生部门请他们认真做好沙河西站卫生防疫工作。(看)
October 6, 2008我们家由于人口太多,想在自家院子再建一排房,听说不我们家由于人口太多,想在自家院子再建一排房,听说不可以是么?(wz)
October 6, 2008刘书记:北京将在10月11号实行限行措施,但是我家刘书记:北京将在10月11号实行限行措施,但是我家有两辆车,车号尾数正好是5和0,这样在周五这两辆车都不能开,很不方面,我想能不能像奥运期间那样,变换一辆车的车号,这样周五至少一辆能开,谢谢! 现在有些政策颁布不是太人性,就拿这次北京市10月11号的限车令来说,我们都不明白为什么要限车,上一次是为奥运,全国人民的大事,我们做出牺牲,但是这一次呢?说限就限,好像北京市的交通不畅,空气质量不好,我们开私车的是罪魁祸首,殊不知我们买辆车也不容易,要不是工作需要谁也不想花那份钱。就拿我来说,坐公交上班需要一个半到两个小时,而开车只要半个小时。如果实在要限也可以,我建议北京市的各级领导跟不通百姓一样,我们一周少开一天私车,北京市的各级领导一周少坐一天公车,跟老百姓一起走路、骑车、或坐公交。因为他们也是北京市民,北京百姓能做到的,北京市的各级领导也应该能做到,而且更有说服力,并且请媒体和市民监督,您说我的建议好不好?谢谢!(一个北京市民)
October 7, 2008请您在百忙之中关心一下社区居委会人员的工作、生活、请您在百忙之中关心一下社区居委会人员的工作、生活、收入情况吧!他们都在低保线周围徘徊,还不及北京市最低工资标准!他们上有老下有小,面对飞涨的物价不到700元的工资,怎么生活呀!急盼领导关注,关注着一群体的民生!!(社区工作者)
October 7, 2008现在的房子太贵了,我们基层工作者每月600元的工资…现在的房子太贵了,我们基层工作者每月600元的工资,别说买房了就是吃饭我们都吃不上了,请把房价降降吧,老百姓实在是买不起啊,一所房子可能是老百姓为之奋斗10年或是50年的工作才换来的。别再让我们睡马路了(社区工作者)
October 8, 2008奥运会结束了,也该解决打通奥体公园(场馆)区东西向…奥运会结束了,也该解决打通奥体公园(场馆)区东西向的交通问题了(目前只通了大屯路隧道),除了解决机动车的通行外,特别要考虑非机动车的通行问题。强烈呼吁“切不要是奥体公园(场馆)区变成为某些利益集团的专属区”,这也是老百姓最耽心的问题。
October 8, 2008奥运会结束了,也该解决打通奥体公园(场馆)区东西向奥运会结束了,也该解决打通奥体公园(场馆)区东西向的交通问题了(目前只通了大屯路隧道),除了解决机动车的通行外,特别要考虑非机动车的通行问题。强烈呼吁“切不要是奥体公园(场馆)区变成为某些利益集团的专属区”,这也是老百姓最耽心的问题。
 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds