R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

我们对20个Usenet公告板的20,000条消息进行分析。

此数据集中的Usenet公告板包括新汽车,体育和密码学等主题。

由Kaizong Ye,Liao Bao撰写

预处理

我们首先阅读20news-bydate文件夹中的所有消息,这些消息组织在子文件夹中,每个消息都有一个文件。

请注意该newsgroup列描述了每条消息来自哪20个新闻组,以及id列,用于标识该新闻组中的消息。

tf-idf

TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。我们希望新闻组在主题和内容方面有所不同,因此,它们之间的词语频率也不同。

主题建模

LDA可以整理来自不同新闻组的Usenet消息吗?


主题模型(LDA)案例:分析人民网留言板数据

阅读文章


主题1当然代表sci.space新闻组(因此最常见的词是“空间”),主题2可能来自密码学,使用诸如“密钥”和“加密”之类的术语。


随时关注您喜欢的主题


情绪分析

我们可以使用我们 探讨的情绪分析技术来检查这些Usenet帖子中出现的正面和负面词的频率。哪些新闻组总体上最积极或最消极?

在这个例子中,我们将使用AFINN情感词典,它为每个单词提供积极性分数,并用条形图可视化

用语言分析情绪

值得深入了解_为什么_有些新闻组比其他新闻组更积极或更消极。为此,我们可以检查每个单词的总积极和消极贡献度。

N-gram分析

Usenet数据集是一个现代文本语料库,因此我们会对本文中的情绪分析感兴趣.


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498