R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现

本文以R语言为工具,帮助客户对汽车网站的口碑数据进行抓取,并基于文本数据分词技术进行数据清理和统计。

由Kaizong Ye,Sherry Deng撰写

通过词频统计和词云可视化,对口碑中的关键词进行分析,挖掘出消费者对汽车的评价和需求,为汽车制造商和销售商提供重要的市场参考。


随着社会经济的不断发展,汽车已经成为人们日常生活中不可或缺的交通工具。汽车口碑对于消费者购车决策起着至关重要的作用,同时也是汽车制造商和销售商了解市场需求、改进产品质量和服务的重要依据。

传统的汽车口碑调查方式往往需要耗费大量的人力物力,而网络上的汽车口碑数据正逐渐成为研究汽车市场和消费者需求的重要数据来源。

然而,如何高效地获取和分析这些数据变得越来越重要。因此,本文利用R语言的数据抓取和文本数据分词技术,对汽车网站的口碑数据进行抓取和分析,旨在为汽车行业提供更准确、更快速的市场研究手段。

本文主要实现以下两个目标:

  • 基于R语言的数据抓取部分。这一部分里面所有的结果都要实现
  • 基于R语言的文本数据分词

自适应网页宽度的 Bilibili 视频

视频

文本挖掘:主题模型(LDA)及R语言实现分析游记数据

探索见解

去bilibili观看

探索更多视频

在每一页评价内容的抓取中 , 依然使用 xpath SApply 函数,再输入特定的 XML 路径来抓取网页上的用户评价内容

library(RCurl)


 Also load the other required package.  
library("methods")  
xpath <- '//div[@class=\"co81\"]'  
  
url <-"www.chekb.com/suonata/koubei/"
image.png
pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE,encoding="UTF-8")  
   pagetree  
   value <- getNodeSet(pagetree,xpath)  
   
  i <- length(value)                     统计满足条件的值个数,一般情况为1

读入数据

将需要分析的文本放入记事本中,保存到相应路径,并在R中打开。


head(lecture)
image.png

数据清理

lecture$评价=gsub(pattern="[1|2|3|4|5|6|7|8|9|0]"," ",lecture$评价);        
lecture$评价=gsub(pattern="/"," ",lecture$评价);     
lecture$评价=gsub(pattern="!"," ",lecture$评价);
......

grepl 函数的 regexpr 函数、regmatches 函数,并结合正则表达式来匹配出“非灰色用户”的主页链接


grepl(pattern = "中国",x = lecture$网友)

分词+统计词频

word=lapply(X=words, FUN=strsplit, " ")  
v=table(unlist(word))
image.png

统计数据的频数

对词频进行排序table函数得到各词组的词频,最后运用 sort 函数让其按词频降序排列,生成文档词矩阵


图片

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

阅读文章


创建数据框

d=data.frame(词汇=names(v), 词频=v)  
d

image.png


随时关注您喜欢的主题


过滤掉1个字的结果和词频小于100的结果

筛选标准大家可以根据自己的需求进行修改

d1=subset(d, nchar(as.character(d$词汇))>1 & d$词频.Freq>=2) 

词频统计结果(节选)如下:

画出标签云

(2)设置字体类型和字体颜色

mycolors <- brewer.pal(12,"Paired")

(3)画出标签云


dcloud(d1$词汇,d1$词频.Freq,random.order=FALSE,random.color=TRUE,colors=mycolors,family="myFont")
QQ截图20231128144503.png


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds