作为中国古典文学的瑰宝，《红楼梦》具有极高的文学价值和丰富的主题内涵。

近年来，随着大数据和文本挖掘技术的发展，对《红楼梦》等古典文学作品的深度分析成为可能。

由Kaizong Ye，Liao Bao撰写

本研究采用R语言作为分析工具，对《红楼梦》全文进行文本挖掘，通过词频统计、词云可视化以及前后对比分析，以期深入探索这部经典小说的主题演变和人物塑造。

× 数据可视化主要旨在借助于图形化手段，清晰有效地传达与沟通信息。为了有效地传达思想概念，美学形式与功能需要齐头并进，通过直观地传达关键的方面与特征，从而实现对于相当稀疏而又复杂的数据集的深入洞察。数据可视化可以使数据变得更有意义，而且可视化也可以使数据变得更容易理解。数据可视化软件正帮助越来越多的企业从浩如烟海的复杂数据中理出头绪，化繁为简，变成看得见的财富，从而实现更有效的决策过程。

读入数据

将需要分析的文本放入记事本中，保存到相应路径，并在R中打开。

这儿我导入的是《红楼梦》的文本。

先导入rJava和Rwordseg两个包


library(Rwordseg)

分词+统计词频

words=unlit(lappy(X=leure, FN=segmntCN))
#unlist将list类型的数据，转化为vector  
#lapply()返回一个长度与X一致的列表，每个元素为FUN计算出的结果，且分别对应到X中的每个元素。

table统计数据的频数

降序排序

v=rev(sort(v))

过滤掉1个字的结果和词频小于100的结果

可下载资源

完整程序、数据和文档（word）

成为新会员获取本文分析的智能体、数据、代码、报告

加入会员群

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI，NRI指标

d1=subset(d, ncar(a.aracterd词汇))>1 & d$词频.Freq>=100)

画出标签云

wordcloud(d1$词

自适应网页宽度的 Bilibili 视频

视频

文本挖掘：主题模型（LDA）及R语言实现分析游记数据

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

性格分析：宝玉

xinggefenxi("宝玉")

从关键词“丫头”“出去”“姐姐”这些来看，贾宝玉是一个又奇又俗的人物。自幼深受祖母贾母疼爱，住贾母院。因此娇生惯养，构成他性格的主要特征是叛逆。他行为“偏僻而乖张”，是封建社会的叛逆者。他鄙视功名利禄，不愿走“学而优则仕”的仕途。他痛恨“八股”，辱骂读书做官的人是“国贼禄蠹”，懒于与他们接触拜会。

NLP自然语言处理—主题模型LDA案例：挖掘人民网留言板文本数据

阅读文章 >

红楼梦前八十回与后四十回是否同一个人写的？

lecture<-read.csv("红楼梦前80回.txt", stringsAsactorsALS,headerFALSE)  
   
words=unlist(lappl
#unlist将list类型的数据，转化为vector  
#lapply()返回一个长度与X一致的列表，每个元素为FUN计算出的结果，且分别对应到X中的每个元素。  
word=lapply()

画出标签云

随时关注您喜欢的主题



lecture<-read.csv("红楼梦后40回.txt", stringssFatrs=FALE,heade=FALSE)

前后红楼梦词频对比

qianord=qianword[which(qianord[ ,1] %in% ongogword),  ]  
  
houword=houword[which(hword[ ,1] %in% gotnword),  ]

前红楼梦:

后红楼梦:

t检验

t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。用于比较前后红楼梦的关键词出现频率的区别差异。

t.test(qianword[,3],houword[,3])

从结果来看，t检验的p值显著小于0.05，因此拒绝原假设。有95%的把握可以认为前后的红楼梦不是一个人所做。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言《红楼梦》文本挖掘：词频统计、词云可视化及前后对比分析

作为中国古典文学的瑰宝，《红楼梦》具有极高的文学价值和丰富的主题内涵。

读入数据

先导入rJava和Rwordseg两个包

分词+统计词频

table统计数据的频数

降序排序

画出标签云

性格分析：宝玉

NLP自然语言处理—主题模型LDA案例：挖掘人民网留言板文本数据

红楼梦前八十回与后四十回是否同一个人写的？

画出标签云

随时关注您喜欢的主题

前后红楼梦词频对比

t检验

相关文章

R语言《红楼梦》文本挖掘：词频统计、词云可视化及前后对比分析

作为中国古典文学的瑰宝，《红楼梦》具有极高的文学价值和丰富的主题内涵。

读入数据

先导入rJava和Rwordseg两个包

分词+统计词频

table统计数据的频数

降序排序

画出标签云

性格分析： 宝玉

NLP自然语言处理—主题模型LDA案例：挖掘人民网留言板文本数据

红楼梦前八十回与后四十回是否同一个人写的？

画出标签云

随时关注您喜欢的主题

前后红楼梦词频对比

t检验

相关文章

性格分析：宝玉