此示例显示如何用R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风

由Kaizong Ye，Weilong Zhang撰写

行为风险因素监视系统（BRFSS）是美国的年度电话调查。BRFSS旨在识别成年人口中的危险因素并报告新兴趋势。

加载包

library(ggplot2)

载入资料

load("brfss2013.RData")

可下载资源

完整程序、数据和文档（word）

第1部分：关于数据

行为风险因素监视系统（BRFSS）是美国的年度电话调查。例如，询问受访者饮食和每周的体育锻炼，艾滋病毒/艾滋病状况，可能的烟草使用，免疫接种，健康状况，健康天数-与健康相关的生活质量，获得医疗保健，睡眠不足，高血压意识，胆固醇意识，慢性健康状况，饮酒，水果和蔬菜消费，关节炎负担和安全带使用。

× 分类模型：目标变量是分类变量（离散值）；回归模型：目标变量是连续性数值变量。逻辑回归通常用于解决分类问题，例如，业界经常用它来预测：客户是否会购买某个商品，借款人是否会违约等等。实际上，“分类”是应用逻辑回归的目的和结果，但中间过程依旧是“回归”。为什么这么说？因为通过逻辑回归模型，我们得到的计算结果是0-1之间的连续数字，可以把它称为“可能性”（概率）。对于上述问题，就是：客户购买某个商品的可能性，借款人违约的可能性。然后，给这个可能性加一个阈值，就成了分类。例如，算出贷款违约的可能性>0.5，将借款人预判为坏客户。

数据采集：

数据收集过程在brfss_codebook中进行了说明。通过进行座机电话调查和基于蜂窝电话的调查，从美国所有50个州，哥伦比亚特区，波多黎各，关岛和美属萨摩亚，密克罗尼西亚联邦和帕劳收集了数据。

固定电话样本已使用了不成比例的分层抽样（DSS），并且随机选择了蜂窝电话受访者，每个受访者具有相同的选择概率。我们正在处理的数据集包含330个变量，2013年共进行491、775次观测。缺失值用“ NA”表示。

视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

推广性：

样本数据应使我们能够推广到感兴趣的人群。它是对491,775名18岁以上美国成年人的调查。它基于大量分层的随机样本。潜在偏见与无回应，不完整的访谈，价值观缺失和便利偏见有关。

因果关系：

BRFSS是一项观察研究，只能建立变量之间的相关性/关联性，因此无法建立因果关系。

第2部分：研究问题

研究问题1：

在过去30天内，身心健康状况不佳的天数分布是否因性别而异？

研究问题2：

受访者接受采访的月份与受访者自我报告的健康感知之间是否存在关联？

研究问题3：

收入和医疗保险之间有关联吗？

研究问题4：

吸烟，饮酒，胆固醇，血压，体重和中风之间是否有任何关系？最终，我想看看是否可以通过上述变量预测中风。

第3部分：探索性数据分析

研究问题1：

ggplot(aes(x=physhlth, fill=sex), data = brfss2013[!is.na(brfss2013$sex), ]) +
  geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Physical Health not Good in the Past 30 Days')

ggplot(aes(x=menthlth, fill=sex), data=brfss2013[!is.na(brfss2013$sex), ]) +
  geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days Mental Health not Good in the Past 30 Days')

ggplot(aes(x=poorhlth, fill=sex), data=brfss2013[!is.na(brfss2013$sex), ]) +
  geom_histogram(bins=30, position = position_dodge()) + ggtitle('Number of Days with Poor Physical Or Mental Health in the Past 30 Days')

summary(brfss2013$sex)

##  Male  Female   NA's 
##201313 290455      7

以上三个数字显示了过去30天内男性和女性对身体，精神和健康状况不佳的天数做出反应的数据分布。我们可以看到，女性受访者比男性受访者要多得多。

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

研究问题2：

我试图找出人们在不同月份对健康状况的反应是否不同。例如，人们是否更有可能说自己在春季或夏季身体健康？

研究问题3：

一般而言，高收入受访者比低收入受访者更有可能获得医疗保健。

R语言泊松Poisson回归模型分析案例

阅读文章 ➜

研究问题4：

为了回答这个问题，我将使用以下变量：

smoke100：抽至少100支香烟
avedrnk2：过去30天每天平均含酒精饮料
bphigh4：曾经血压过高
tellhi2：高胆固醇血症
weight2：报告的磅数
cvdstrk3：曾经被诊断为中风

首先，将上述变量转换为数字，并查看这些数字变量之间的相关性。

随时关注您喜欢的主题


corr.matrix <- cor(selected_brfss)
corrplot(corr.matrix, main="\n\nCorrelation Plot of Smoke, Alcohol, Blood pressure, Cholesterol, and Weight", method="number")

似乎没有任何两个数字变量具有很强的相关性。

Logistic回归预测中风

将答案“是，但女性仅在怀孕期间告知”和“告诉临界点或高血压前”回答为“是”。

将“ NA”值替换为“否”。

stroke$bphigh4 <- replace(stroke$bphigh4, which(is.na(stroke$bphigh4)), "No")
stroke$toldhi2 <- replace(stroke$toldhi2, which(is.na(stroke$toldhi2)), "No")
stroke$cvdstrk3 <- replace(stroke$cvdstrk3, which(is.na(stroke$cvdstrk3)), "No")
stroke$smoke100 <- replace(stroke$smoke100, which(is.na(stroke$smoke100)), 'No')

平均替换“ NA”值。

mean(stroke$avedrnk2,na.rm = T)

##[1] 2.209905

stroke$avedrnk2 <- replace(stroke$avedrnk2, which(is.na(stroke$avedrnk2)), 2)

看一下将用于建模的数据。

head(stroke)
summary(stroke)

##   bphigh4 toldhi2 cvdstrk3 weight2 smoke100 avedrnk2
##1     Yes     Yes       No     154      Yes        2
##2      No      No       No      30       No        2
##3      No      No       No      63      Yes        4
##4      No     Yes       No      31       No        2
##5     Yes      No       No     169      Yes        2
##6     Yes     Yes       No     128       No        2

##  bphigh4      toldhi2      cvdstrk3        weight2       smoke100    
## No :284107   Yes:183501   Yes: 20391   Min.   :  1.00   Yes:215201  
## Yes:207668   No :308274   No :471384   1st Qu.: 43.00   No :276574  
##                                        Median : 73.00               
##                                        Mean   : 80.22               
##                                        3rd Qu.:103.00               
##                                        Max.   :570.00               
##    avedrnk2     
## Min.   : 1.000  
## 1st Qu.: 2.000  
## Median : 2.000  
## Mean   : 2.099  
## 3rd Qu.: 2.000  
## Max.   :76.000

二进制结果。
在整理和清理数据之后，现在我们可以拟合模型。

Logistic回归模型拟合


summary(model)

##Call:
##glm(formula = cvdstrk3 ~ ., family = binomial(link = "logit"), 
##    data = train)

##Deviance Residuals: 
##    Min       1Q   Median       3Q      Max  
##-0.5057  -0.3672  -0.2109  -0.1630   3.2363  

##Coefficients:
##              Estimate Std. Error  z value Pr(>|z|)    
##(Intercept) -3.2690106  0.0268240 -121.869  < 2e-16 ***
##bphigh4Yes   1.3051850  0.0193447   67.470  < 2e-16 ***
##toldhi2No   -0.5678048  0.0171500  -33.108  < 2e-16 ***
##weight2     -0.0009628  0.0001487   -6.476 9.41e-11 ***
##smoke100No  -0.3990598  0.0163896  -24.348  < 2e-16 ***
##avedrnk2    -0.0274511  0.0065099   -4.217 2.48e-05 ***
##---
##Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##(Dispersion parameter for binomial family taken to be 1)

##    Null deviance: 136364  on 389999  degrees of freedom
##Residual deviance: 126648  on 389994  degrees of freedom
##AIC: 126660

##Number of Fisher Scoring iterations: 6

解释我的逻辑回归模型的结果：

所有变量均具有统计学意义。

所有其他变量都相等，被告知血压升高，更可能发生中风。
预测变量的负系数-tellhi2No表示，所有其他变量相等，没有被告知血液中胆固醇水平较高，则发生中风的可能性较小。
每单位重量改变，具有冲程（相对于无冲程）的对数几率降低0.00096。
至少抽100支香烟不抽烟，中风的可能性较小。
在过去30天内，每天平均含酒精饮料增加1个单位，中风的对数几率降低0.027。

anova(model, test="Chisq")

##Analysis of Deviance Table

##Model: binomial, link: logit

##Response: cvdstrk3

##Terms added sequentially (first to last)


##         Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
##NULL                    389999     136364              
##bphigh4   1   7848.6    389998     128516 < 2.2e-16 ***
##toldhi2   1   1230.1    389997     127285 < 2.2e-16 ***
##weight2   1     33.2    389996     127252 8.453e-09 ***
##smoke100  1    584.5    389995     126668 < 2.2e-16 ***
##avedrnk2  1     19.9    389994     126648 7.958e-06 ***
##---
##Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1