通过情感分析,我们可以从特朗普的推文得到什么?

最近,总统候选人特朗普变得有争议。

特别是,他的挑衅性呼吁暂时禁止穆斯林进入美国,他面临强烈的批评。社交媒体分析的许多用途中的一些是情绪分析,其中我们评估关于特定问题的帖子是积极还是消极。我们可以通过利用众多R包和Tableau可视化,将R和Tableau集成到社交媒体分析,机器学习,预测建模等文本数据挖掘中。

       
在这篇文章中,我们使用R来挖掘tweets并分析他们的情绪。我们将使用Tableau来可视化我们的结果。我们将看到tweets,城市和状态的空间 – 时间分布与顶部数量的tweets,我们还将映射tweets的情绪。这将帮助我们看到他的评论在哪些领域被接受为积极的,他们被认为是负面的。

首先,让我们创建一个tweet的词云。 词云帮助我们可视化tweet中最常见的词:

wordcloud_donald

我们从云中看到,tweet中最常用的词是’muslim’,’muslims’,’ban’。 这表明大多数推文是关于特朗普最近的想法,暂时禁止穆斯林进入美国。
下面的信息中心显示了所抓取的tweets数量的时间序列。 我们可以在小时和天之间更改时间单位,仪表板将根据所选时间单位更改。 随时间推移的推文数量模式有助于我们深入了解每个活动/活动的感知方式。

tableau-screenshot1

获取tweet的地址

由于一些tweets没有lat / lon值,我们将删除它们,因为我们希望地理信息按状态,城市和邮政编码显示tweets及其属性。

下面的地图显示了我可以反转地理编码的tweets。 大小与每个tweet获得的收藏夹数量成正比。 在互动地图中,我们可以将鼠标悬停在每个圈子上,并阅读推文,推文发送的地址以及发布的日期和时间。

by_retweets

类似地,下面的仪表板显示了tweets,大小与每个tweet被转发的次数成正比。

by_retweets

在以下三个可视化中,显示了顶部邮政编码,城市和州的推文数量。 在互动地图中,我们可以通过使用每个viz中显示的滚动条来更改要显示的邮政编码,城市和州的数量。 这些可视化帮助我们按邮政编码,城市和州查看tweet的分布。

top10zip

top15cities

情绪分析具有无数的用途。 例如,公司可以调查客户最喜欢公司产品的哪些方面,以及客户不满意的问题是什么? 当公司发布新产品时,产品是否被正面或负面感知? 客户的情绪如何随时间和空间而变化? 在这篇文章中,我们正在评估,我们刮在唐纳德·特朗普的tweets的情绪。
下面的图显示了按状态反向地理编码的tweet的情绪分数。 我们看到推文在NY,NC和Tx有最高的正面情绪。

by_sentiment

概要

在本文中,我们看到了如何将R和Tableau集成到文本挖掘,情感分析和可视化中。 一起使用这些工具使我们能够回答详细的问题。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498