R语言改进Apriori关联规则挖掘研究西安PM2.5含量与天气因素关系数据可视化

随着社会的发展,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。

而大数据的意义并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。

由Kaizong Ye,Liao Bao撰写

关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。

或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。

关联分析是一个很有用的数据挖掘模型,能够帮助企业、政府做很多有用的决策,而“基于大数据的天气状况研究”目的是通过使用数据挖掘方法对某区域某段时间的天气情况和细颗粒物污染状况进行了分析,研究了细颗粒物污染程度与天气状况的关系,可视化呈现了地区天气温度等的变化趋势,最后得出对民众生活具有参考价值的结论。

大数据时代,气象服务在不断地拓宽领域,2012 年 12 月,绿色和平与北京大学公共卫生学院共同发布的 《 PM2.5 的健康危害和经济损失评估研究》指出:PM2.5污染对公众健康有致命危害。中国对 PM2.5 的浓度监测刚刚起步,对于 PM2.5 的来源、如何治理 PM2.5 的讨论也刚刚开始,PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因此通过分析天气因素与 PM2.5 值的相关性,可以更好的了解以及控制 PM2.5 污染状况。

在这些美好蓝图的背后,数据分析、数据挖掘技术得到了充分的关注和研究。但在如今的大数据背景下,海量数据只有在被合理采集、解读与表达之后才能完美展现它们的瑰丽与深奥,而可视化则无疑是让数据变的亲切和便于理解的最有效的途径。

只有在理解了数据可视化概念的本质之后,才能通过对其原理和方法进行研究和合理运用,获取数据背后隐含的价值。


视频

关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化

探索见解

去bilibili观看

探索更多视频

在天气状况情况研究 的应用和研究现状*

   随着全球工业化进程的不断加速,工业污染日趋严重,各地气象灾害频发,因此迫切需要对各类气象数据进行采集、处理和分析,对气象灾害进行预测和预警,减少经济损失。大数据技术的发展,使得处理海量、分布式的气象数据成为可能。国内硕士博士都进行着相关理论研究。

任务概述

目标

PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因此通过分析天气与PM2.5值的相关性,可以更好的了解 PM2.5污染状况。

在研究 PM2.5 含量与天气因素关系时采用了西安PM值与天气状况作为样本,通过使用数据挖掘软件R对上述获得的数据进行预处理、可视化分析,从而得到关于天气状况和PM2.5值的关系分析。
用户特点

该平台应用西安地区天气状况数据,尤其是PM值与天气因素的相关性,因此其主要用户为普通市民群众。PM2.5是指大气中直径小于或等于2.5微米的颗粒物,PM2.5被吸入人体后易引发包括哮喘、支气管炎和心血管病等方面的疾病。因此利用大数据来研究天气因素与PM2.5值的相关性以及温度走向,可以更好的服务普通群众,给群众的生活和出行带来方便。

假定和约束

为了得出PM2.5与天气状况(气温、风力风向等)的相关性分析结果。首先要获得西安地区六个月的PM2.5数值与天气状况(气温、风力风向等)的数据.在得到数据之后,将数据导入到 R软件中,完成数据的预处理和可视化后,采用 Apriori 算法对数据进行关联规则分析。为了将问题进一步简化,现作如下假设:


图片

R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化

阅读文章



1、所查的数据均真实有效;

2、检测到的数据均为天气预报数据,忽略当天天气的变化;


随时关注您喜欢的主题


关联分析

在研究PM2.5含量与天气因素关系时采用了西安的PM值与天气因素作为样本。通过使用数据挖掘软件 R 对上述获得的数据进行处理从而得到关于天气状况和 PM2.5 值的关系分析。在本次研究中,釆用了气温、天气情况( 晴天,多云,阴天,雾天,小雪,雪天,雾霾,小雨,雨天)和风向 ( 东风,西风,南风,北风,微风)作为选取的天气因素,将其与 PM2.5(以空气污染指数替代,分为优秀,良好,轻微污染,轻度污染,中度污染,重度污染)一起作为数据挖掘对象。

原始数据

image.png

读取数据

x=**read.xlsx**("西安近6个月天气情况数据源.xlsx" )


查看数据


**head**(x)
image.png

查看数据概述


**summary**(x)


image.png

改进算法CRApriori

CRApriori=function(support,confidence){  
for(i in 1:2){  
(minlen=i,support=saxlen=i))  
**inspect**(frequentsets) *#查看i项频繁项集*  
*#这里如果支持度选的比较大,也许没有10这么多,这里就不能写[1:10].*  
**inspect**(**sort**(frequentsets,by="support")[1:10]) *#排序后查看*  
*#多选几次支持度阈值,更好的发现频繁模式。*  
fqout=**capture.output**(**inspect**(frequentsets)) *#获得i项频繁项集*  

for(ii in 1:**length**(data)){  
  data[[ii]]=**intersect**(data[[ii]],fq3) *#运用改进算法CRApriori删除事务集中不包括候选项集Ci即频繁i-1项集L(i-1),*  
}

parameter = **list**(sup,  
                                  target = "rules") )

查看模型结果关联规则概述

**summary**(rles)
image.png
image.png

按支持度查看前6条规则


**inspect**(**sort**(rusupport")[1:6]) 
image.png

按置信度查看前6条规则

**inspect**(**sort**(rules,bence")[1:6]) 
image.png
    FrequencyPlot**ex.names =0.8)   *#数据画频繁项的图
image.png

#绘制不同规则图形来表示支持度,置信度和提升度*  
**plot**(rules,
image.png

通过该图可以看到 规则前项和规则后项分别有哪些天气情况 以及每个天气情况 的支持度大小,支持度越大则圆圈越大。

image.png

从该图可以看到支持度和置信度的关系,置信度越高提升度也越高。

image.png

从该图可以看到支持度和置信度的关系,提升度越高置信度也越高。


**plot**(rules, method=

image.png
image.png
image.png
图片1.png

参考资料

  •  危蓉.基于大数据的天气状况研究[A].湖北警官学院信息技术系,2015.
  •  李观松.城市环境空气质量数据挖掘与可视化的研究[D].山东大学计算机软件与理论,2007.
  •  曾悠.大数据时代背景下的数据可视化概念研究[D].浙江大学计算机科学与技术学院,2014.

可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds