最近我们被客户要求撰写关于文本挖掘的研究报告。我们对20个Usenet公告板的20,000条消息进行分析。

此数据集中的Usenet公告板包括新汽车，体育和密码学等主题。

由Kaizong Ye，Liao Bao撰写

预处理

我们首先阅读20news-bydate文件夹中的所有消息，这些消息组织在子文件夹中，每个消息都有一个文件。

raw_text

## # A tibble: 511,655 x 3
##    newsgroup   id    text                                                              
##    <chr>       <chr> <chr>                                                             
##  1 alt.atheism 49960 From: mathew <mathew@mantis.co.uk>                                
##  2 alt.atheism 49960 Subject: Alt.Atheism FAQ: Atheist Resources                       
##  3 alt.atheism 49960 Summary: Books, addresses, music -- anything related to atheism   
##  4 alt.atheism 49960 Keywords: FAQ, atheism, books, music, fiction, addres

## # … with 511,645 more rows

请注意该newsgroup列描述了每条消息来自哪20个新闻组，以及id列，用于标识该新闻组中的消息。

可下载资源

完整程序、数据和文档（word）

最受欢迎的见解

1.探析大数据期刊文章研究热点

2.618网购数据盘点-剁手族在关注什么

3.r语言文本挖掘tf-idf主题建模，情感分析n-gram建模研究

4.python主题建模可视化lda和t-sne交互式可视化

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型：数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析

tf-idf

TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。我们希望新闻组在主题和内容方面有所不同，因此，它们之间的词语频率也不同。

自适应网页宽度的 Bilibili 视频

视频

文本挖掘：主题模型（LDA）及R语言实现分析游记数据

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

newsgroup_cors

## # A tibble: 380 x 3
##    item1                    item2                    correlation
##    <chr>                    <chr>                          <dbl>
##  1 talk.religion.misc       soc.religion.christian         0.835
##  2 soc.religion.christian   talk.religion.misc             0.835
##  3 alt.atheism              talk.religion.misc             0.779
##  4 talk.religion.misc       alt.atheism                    0.779
##  5 alt.atheism              soc.religion.christian         0.751
##  6 soc.religion.christian   alt.atheism                    0.751
##  7 comp.sys.mac.hardware    comp.sys.ibm.pc.hardware       0.680
##  8 comp.sys.ibm.pc.hardware comp.sys.mac.hardware          0.680
##  9 rec.sport.baseball       rec.sport.hockey               0.577
## 10 rec.sport.hockey         rec.sport.baseball             0.577
## # … with 370 more rows