By tecdat7月 16, 2017大数据部落, 数理统计, 计算机科学与技术企业洞察, 舆情分析 社会化媒体的发展,吸引越来越多的目光,在这个时代社会化媒体,用户成为最优秀的企业品牌形象大使。潜在为了了解消费者的意愿,专门开发的折扣计划和优惠券为客户的每个客户的肖像,以推动客户通过语义分析系统的分析发展中产生。tecdat舆情分析系统基于 Hadoop 平台的文本分析,优化分析能力,提供快速迅捷的查询和分析。 数据分析逻辑 微博是现代网络社会沟通的重要工具 。但是,这些信息往往不能针对每个用户的喜好来发布,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。 但实际上,粉丝自身发布的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。 营销分析逻辑流程 方案架构 平台的文本分析 特朗普推文舆情分析 : 我们挖掘tweets并分析它们的情绪并且可视化我们的结果。我们看到tweets,城市和状态的空间 – 时间分布与最热门的tweets,我们还挖掘tweets的情绪,帮助我们看到哪些评论被认为是积极的,哪些是负面的。 首先,创建一个tweet的词云。 词云帮助我们可视化tweet中最常见的词: 从云中看到,tweet中最常用的词是’muslim’,’muslims’,’ban’。 这表明大多数推文是关于特朗普最近的想法,暂时禁止穆斯林进入美国。 下面的信息中显示了所抓取的tweets数量的时间序列。 我们可以在小时和天之间更改时间单位。 随时间推移的推文数量模式有助于我们深入了解每个活动的感知变化方式。 获取tweet的地址。 下面的地图显示了我可以绘制tweets,大小与每个tweet获得的转发数量成正比。 下面的仪表板显示了tweets,大小与每个tweet被转发的次数成正比。 在以下三个可视化中,显示了邮政编码、城市和州的推文数量。 在互动地图中,我们可以通过使用每个viz中显示的滚动条来更改要显示的邮政编码、城市和州的数量。 这些可视化帮助我们按邮政编码,城市和州查看tweet的分布。 情绪分析具有无数的用途。 例如,公司可以调查客户最喜欢公司产品的哪些方面,以及客户不满意的问题是什么? 当公司发布新产品时,产品是否被正面或负面情绪? 客户的情绪如何随时间和空间而变化? 然后,我们评估唐纳德·特朗普的tweets的情绪。 下面的图显示了按地理编码分类的tweet的情绪分数。 我们看到推文在NY、NC和Tx有最高的正面情绪。 我们使用了来自唐纳德·特朗普的最近的tweets, 发现在一些国家表现出强烈的积极情绪。 我们的情绪分析的准确性取决于tweets中的词语是否被包括在词典中。 此外,由于tweet可能包含俚语,行话和词典,情感分析需要仔细评估。 非常感谢您阅读本文,有任何问题请在下面留言! 拓端舆情分析业务能力介绍 1. 网络爬虫:高效、精准获取主要论坛、社交媒体、新闻资讯等网页关键信息; 2. 文本解析:非结构化数据精准解析能力,文本数据的量化计算; 3. 热度识别:根据转载量、评论数量、回复量、危机程度等参数,识别热度及预测其趋势; 4. 倾向性分析:对信息表达的观点、主旨进行倾向性分析,作为舆情监控可靠依据; 5. 趋势预测:对热点词汇进行监控,并预测未来扩散或退减趋势; 6. 话题跟踪:对热点话题进行信息跟踪,并对其进行倾向性与趁势分析; 7. 自动报告生成:舆情分析引擎处理后,自动生成报告;结果库可供检索,可自定义条件来对热点话题、倾向性进行查询,提供决策支持。