R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风

此示例显示如何用R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风

行为风险因素监视系统(BRFSS)是美国的年度电话调查。BRFSS旨在识别成年人口中的危险因素并报告新兴趋势。

加载包

载入资料

第1部分:关于数据

行为风险因素监视系统(BRFSS)是美国的年度电话调查。例如,询问受访者饮食和每周的体育锻炼,艾滋病毒/艾滋病状况,可能的烟草使用,免疫接种,健康状况,健康天数-与健康相关的生活质量,获得医疗保健,睡眠不足,高血压意识,胆固醇意识,慢性健康状况,饮酒,水果和蔬菜消费,关节炎负担和安全带使用。

数据采集​​:

数据收集过程在brfss_codebook中进行了说明。通过进行座机电话调查和基于蜂窝电话的调查,从美国所有50个州,哥伦比亚特区,波多黎各,关岛和美属萨摩亚,密克罗尼西亚联邦和帕劳收集了数据。固定电话样本已使用了不成比例的分层抽样(DSS),并且随机选择了蜂窝电话受访者,每个受访者具有相同的选择概率。我们正在处理的数据集包含330个变量,2013年共进行491、775次观测。缺失值用“ NA”表示。

推广性:

样本数据应使我们能够推广到感兴趣的人群。它是对491,775名18岁以上美国成年人的调查。它基于大量分层的随机样本。潜在偏见与无回应,不完整的访谈,价值观缺失和便利偏见有关。

因果关系:

BRFSS是一项观察研究,只能建立变量之间的相关性/关联性,因此无法建立因果关系。

第2部分:研究问题

研究问题1:

在过去30天内,身心健康状况不佳的天数分布是否因性别而异?

研究问题2:

受访者接受采访的月份与受访者自我报告的健康感知之间是否存在关联?

研究问题3:

收入和医疗保险之间有关联吗?

研究问题4:

吸烟,饮酒,胆固醇,血压,体重和中风之间是否有任何关系?最终,我想看看是否可以通过上述变量预测中风。

第3部分:探索性数据分析

研究问题1:

以上三个数字显示了过去30天内男性和女性对身体,精神和健康状况不佳的天数做出反应的数据分布。我们可以看到,女性受访者比男性受访者要多得多。

研究问题2:
​​ 

我试图找出人们在不同月份对健康状况的反应是否不同。例如,人们是否更有可能说自己在春季或夏季身体健康?

研究问题3:​ 

一般而言,高收入受访者比低收入受访者更有可能获得医疗保健。

研究问题4:

为了回答这个问题,我将使用以下变量:

  • smoke100:抽至少100支香烟
  • avedrnk2:过去30天每天平均含酒精饮料
  • bphigh4:曾经血压过高
  • tellhi2:高胆固醇血症
  • weight2:报告的磅数
  • cvdstrk3:曾经被诊断为中风

首先,将上述变量转换为数字,并查看这些数字变量之间的相关性。

似乎没有任何两个数字变量具有很强的相关性。

Logistic回归预测中风

将答案“是,但女性仅在怀孕期间告知”和“告诉临界点或高血压前”回答为“是”。

将“ NA”值替换为“否”。

平均替换“ NA”值。

看一下将用于建模的数据。

二进制结果。
在整理和清理数据之后,现在我们可以拟合模型。

Logistic回归模型拟合

解释我的逻辑回归模型的结果:

所有变量均具有统计学意义。

  • 所有其他变量都相等,被告知血压升高,更可能发生中风。
  • 预测变量的负系数-tellhi2No表示,所有其他变量相等,没有被告知血液中胆固醇水平较高,则发生中风的可能性较小。
  • 每单位重量改变,具有冲程(相对于无冲程)的对数几率降低0.00096。
  • 至少抽100支香烟不抽烟,中风的可能性较小。
  • 在过去30天内,每天平均含酒精饮料增加1个单位,中风的对数几率降低0.027。

分析偏差表,可以看到一次添加每个变量时偏差的下降。添加bphigh4,tellhi2,smoke100会大大减少残留偏差。尽管其他变量weight2和avedrnk2都具有较低的p值,但它们似乎对模型的改进较少。

评估模型的预测能力

测试装置上的0.96精度是非常好的结果。

绘制ROC曲线并计算AUC(曲线下的面积)

brfss-7

最后一点,当我们分析健康状况监测数据时,我们必须意识到自我报告的患病率可能会有偏差,因为受访者可能不知道其风险状况。因此,为了获得更精确的估计,研究人员正在使用实验室测试以及自我报告的数据。


可下载资源

​非常感谢您阅读本文,如需帮助请联系我们!


关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。


随时关注您喜欢的主题

在wechat上关注我们

最新洞察

技术干货

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498