
在本实验中,我们将使用dplyr软件包探索数据,并使用ggplot2软件包对其进行可视化以进行数据可视化 。
行为风险因素监视系统(BRFSS)是每年对美国超过40万人进行的电话调查。该系统收集有关美国居民与健康相关的危险行为,长期健康状况,以及使用预防服务。
可下载资源
设定
加载包
在本实验中,我们将使用dplyr软件包探索数据,并使用ggplot2软件包对其进行可视化以进行数据可视化
library(ggplot2)
library(dplyr)

载入资料
load("brfss2013.RData")
dim(brfss2013)

## [1] 491775 330
我们可以看到数据集的维度。我们的数据集包含491775个观测值(行)和330个变量(列)
第1部分:数据
关于BRFSS
行为风险因素监视系统(BRFSS)是每年对美国超过40万人进行的电话调查。该系统收集有关美国居民与健康相关的危险行为,长期健康状况,以及使用预防服务。顾名思义,BRFSS旨在识别成年人口中的危险因素并报告新出现的健康趋势。
数据收集方法
通过与家庭居民进行电话采访,从美国各州,哥伦比亚特区和参与的美国领土收集了数据。2011年进行了超过50万次此类采访,使用随机抽样收集了电话采访和手机访问的样本,从一个州根据密度按分层抽样方法获得了电话样本,而手机样本则是从一个随机抽样中抽取的。
为了保持各州之间的一致性,BRFSS遵循标准的数据收集协议,其中包括对符合条件的家庭进行随机抽样,构建调查表,进行手机采访,维护程序以保护受访者的机密性并确保采访过程的质量。一个月的样本电话采访在同一个月内进行。
关于数据收集对推断范围的影响的评论
BRFSS的调查涵盖了50个州和美国领土,其中包括对随机收集的家庭数据进行的超过500,000次电话采访,这些数据仅是随机样本,并且在数据收集中建立了严格的程序以确保代表性人口样本。
由于这是一项观察性研究,而不是具有随机控制的踪迹和目标样品的随机分配的实验性研究,因此无法推断变量之间的因果关系。
第2部分:研究问题
研究问题1:
身心健康与睡眠之间有关联吗?
这个问题涉及对人的健全健康影响睡眠的年龄 的问题。 这将是从该数据集中探索的有趣相关性。正在考虑的变量有:
- physhlth:天数身体健康不好
- menthlth:心理健康的天数不好
- sleptim1:您睡多少时间
- 性别:受访者性别
研究问题2:
收入水平和就业状况是否会改善健康状况?
因为收入水平和就业状况对个人的自我价值和心理状态具有巨大影响。金融不安全会给个人造成巨大的精神伤害,因此我们希望这些人具有不利的健康状况。
考虑的变量有:
- genhlth:一般健康
- 受雇1:就业状况
- 收入2:收入水平
研究问题3:
肥胖(高BMI)会加剧心脏病发作和高胆固醇水平的风险吗?
这个问题试图回答肥胖对加重心脏病发作健康风险的影响。心脏骤停是影响所有背景人群的最常见疾病之一。我们将尝试寻找高胆固醇水平,BMI升高与心脏病风险之间的关系。
正在考虑的变量有:
- _bmi5cat:计算体重指数类别
- tellhi2:高胆固醇血症
- cvdinfr4:曾经被诊断出患有心脏病
第3部分:探索性数据分析
研究问题1:
V1<-brfss2013%>%
filter(!is.na(physhlth),!is.na(sleptim1),!is.na(menthlth),!is.na(sex))%>%
select(physhlth,sleptim1,menthlth,sex)

我们创建了一个新的数据框V1,其中包含4个连续变量。在删除了包含NA输入的行之后,我们对数据进行了分类。
ggplot(data=V1,aes(x=sleptim1,y=physhlth,color=sex))+
geom_point()+scale_fill_manual(values =c("red","seagreen3"))





研究问题2:
清理目标变量的数据集并将结果存储在新的V2中




研究问题3:
新的变量V3存储由3个目标变量组成的数据帧。
count(V3,cvdinfr4)

## # A tibble: 2 x 2
## cvdinfr4 n
## <fctr> <int>
## 1 Yes 26935
## 2 No 370021
ggplot(data=V3,aes(x=cvdinfr4,fill=X_bmi5cat))+
geom_bar()



超重和肥胖的人似乎最容易受到心脏病的影响。


高胆固醇血症最严重的原因是超重或肥胖。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!