行为风险因素监测系统（BRFSS）是一项年度电话调查。

由Kaizong Ye，Coin Ge撰写

BRFSS旨在确定成年人口中的风险因素并报告新兴趋势。

可下载资源

例如，调查对象被询问他们的饮食和每周体育活动、HIV/AIDS状况、可能的吸烟情况、免疫接种、健康状况、健康日数-与健康相关的生活质量、医疗保健获取、睡眠不足、高血压认知、胆固醇认知、慢性健康问题、酒精消费、水果和蔬菜消费、关节炎负担以及安全带使用情况等。

× 分类器产生的结果通常是一个概率值不是直接的0/1变量，通常数值越到，代表正例的可能性越大。根据任务的不同也会采取不同的“截断点”，大于则为正例，小于则为反例。如重视查全率，则阈值可以设置低一些；而重视查准率，阈值可以设置高一些。如果设定了截断点或明确了任务，那么我们根据混淆矩阵就可以知道分类器的效果好坏。在未设定截断点（任务不明确）情况下，我们如何评价一个分类模型的效果的好坏或者比较不同分类模型效果？我们可以观察这个学习器利用所有可能的截断点（就是所有样本的预测结果）对样本进行分类时的效果，注意要先对所有可能的截断点进行排序，方便对比观察。 ROC曲线描绘的是不同的截断点时，并以FPR和TPR为横纵坐标轴，描述随着截断点的变小，TPR随着FPR的变化。纵轴：TPR=正例分对的概率 = TP/(TP+FN)，其实就是查全率横轴：FPR=负例分错的概率 = FP/(FP+TN) 如果是随机分类，没有进行任何学习器，FPR=TPR，即正例分对和负例分错概率相同，预测出来的正例负例和正例负例本身的分布是一致的，所以是一条45°的直线。因此，ROC曲线越向上远离这条45°直线，说明用了这个学习器在很小的代价（负例分错为正例，横轴）下达到了相对较大的查全率（TPR）。

加载数据

load("brfs.RData")

第一部分：关于数据

数据收集：

对于固定电话样本采用了不成比例分层抽样（DSS），移动电话受访者则是随机选择的，每个受访者被选中的概率相等。

我们正在处理的数据集共有330个变量，总共有491,775个观测值（2013年）。缺失值用“NA”表示。

视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

泛化能力：

样本数据应该能够推广到感兴趣的总体。这是对18岁及以上的491,775名成年人进行的调查。它基于一个大规模分层随机样本。可能存在的偏差与非响应、不完整的访谈、缺失值和便利性偏差相关（一些潜在的受访者可能因为没有固定电话和手机而未被纳入在内）。

因果关系：

由于BRFSS是一项观察研究，只能建立变量之间的相关性/关联，并不能确定因果关系。

第二部分：研究问题

研究问题1：

在过去30天内，男女性别在身体和心理健康不好的天数分布上是否存在差异？

研究问题2：

受访者接受采访的月份与其自我报告的健康感知之间是否存在关联？

研究问题3：

收入和医疗保险覆盖之间是否存在关联？

研究问题4：

吸烟、饮酒、胆固醇水平、血压、体重与中风的关系是什么？最终，我想看到是否可以通过上述变量对中风进行预测。

第三部分：探索性数据分析

研究问题1：

ggplt(aes(x=phhth, fill=sx), data = bfss3[!is.na(brfs13$sex), ])

ggplot+
  geom_hitoam(bns=3, psition= psiion_dg

gplot(aes(x=prth, filsex), data=br203[!is.nbrfs03$ex), ]) + gem_istrm(ns=30, postn = poiioge())

sumary(brss3$ex)

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

以上三个图显示了男性和女性对过去30天内身体、心理和两者都不好的天数的数据分布。我们可以看到女性受访者远多于男性受访者。

R语言在BRFSS数据中可视化分析探索糖尿病的影响因素

阅读文章 ➜

研究问题2：

Rby_mnt <- bs201 %>% fier(iyr=='2013') %>% gop_by(imnth, ghlh) %>% sumaie(n=n()) ggpt(aes(x=ionh, y=n, fill = gehh), data = b_mh[!is.na(by_mt$gehlh), ]) + go_bar(stat = 'idnty', ostin = posion_doe())

随时关注您喜欢的主题


by_mnh1 <- brs13 %>% ftr(iyar=='2013') %>% grup_y(imnh) %>% surse(n=n())
gglot(aes(x=imnh, y=n), daa=bymth1) + gem_ar(stat = 'dentty')

我试图找出人们在不同月份对健康状况的回答是否有所差异。例如，在春季或夏季，人们是否更有可能说自己身体健康？然而，看起来并没有明显的模式可见。

研究问题3：

Rplot(brs203$iome2, brfs13$ltpn1

总体来说，高收入的受访者比低收入的受访者更有可能享有医疗保险覆盖。

研究问题4：

为了回答这个问题，我将使用以下变量：

bphigh4: 是否曾经被告知有高血压
toldhi2: 是否曾经被告知有高血胆固醇
weight2: 报告的体重（以磅为单位）
cvdstrk3: 是否曾被诊断为中风
smoke100：至少吸过100支香烟
avedrnk2：过去30天内每天平均

首先，将上述变量转换为数值，并查看这些数值变量之间的相关性。

Rslectedfss - brfs2013[vars] selced_rf$tolhi2 <- iflse(seeted_fss$todh2=="Yes", 1, 0) corrmarix <- cor(selced_bfss) corplot(corr.atri

没有任何两个数值变量之间似乎存在强相关性。

用逻辑回归预测中风

将答案”Yes, but female told only during pregnancy”和”Told borderline or pre-hypertensive”替换为”Yes”。

Rvr1 <- names(brs013) %in% c('smoke0', 'aedrk2', 'bphg4', 'tldhi2', 'wht', 'cdsrk3') sroe <- brfs203[vars1]

将’NA’值替换为’No’。

R4 <- repce(strebh, whch(is.na(stroke$bpig4)), "No")whih(is.na(stroke$soke10)), 'No')

将’NA’值替换为平均值。

Rmean(strke$avedrnk2,.rm = T)

Rstoke$vdrk2 <- replce(stoe$aednk2, whch(is.nastroe$avednk2)), 2)

查看将用于建模的数据。

Rhed(sroe) sumary(sroe)

将结果转换为二元结果。

Rstrke$vdrk3 <- ifelestrok$cvdsk3=="Ys", 1, 0)

在整理和清理数据之后，现在可以拟合模型。

拟合逻辑回归模型

Rtest <- stre[390001:491775,] odel <- glm(cvdtrk3 ~.,famly=biomil(link = 'logit'),at=trin) summary(mdel)

解释逻辑回归模型的结果：所有变量在统计上都是显著的。

在其他变量相等的情况下，被告知血压高的可能性更容易出现中风。
预测变量toldhi2No的负系数表明，在其他变量相等的情况下，没有被告知血胆固醇高的可能性更不容易中风。
每增加一单位的体重，中风（而不是无中风）的对数几率下降0.00096。
不吸烟至少100支香烟的可能性更小。
过去30天平均每天饮用的酒精饮料每增加一单位，中风的对数几率下降0.027。

Ranva(modl, tet="Chiq")

通过分析偏差表，我们可以看到在逐个添加每个变量时的偏差下降情况。添加bphigh4、toldhi2和smoke100明显降低了残差偏差。其他变量weight2和avedrnk2似乎改善了模型，尽管它们都具有较低的p值。

评估模型的预测能力

Rfite.result <- ifelse(fited.ults > 0.5,1,0) misCasifEror <- mean(ftted.reuts != testvdtk3) prnt(pase('Accuracy',1misClasiicEror))

测试集上的准确率为0.96非常好。

绘制ROC曲线并计算AUC（曲线下面积）。

Rp <- predicodel, newdat=est, te="response") pr <- prdition(p, tet$cdstrk3) auc <- uc@y.vaus[[1]]

最后说明一下，当我们分析健康调查数据时，我们必须意识到自我报告的患病率可能存在偏差，因为受访者可能不了解自己的风险状况。因此，为了获得更精确的估计值，研究人员正在使用实验室测试以及自我报告的数据。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言用逻辑回归预测BRFSS中风数据、方差分析anova、ROC曲线AUC、可视化探索

加载数据

第一部分：关于数据

数据收集：

泛化能力：

因果关系：

第二部分：研究问题

研究问题1：

研究问题2：

研究问题3：

研究问题4：

第三部分：探索性数据分析

研究问题1：

R语言在BRFSS数据中可视化分析探索糖尿病的影响因素

研究问题2：

随时关注您喜欢的主题

研究问题3：

研究问题4：

用逻辑回归预测中风

拟合逻辑回归模型

评估模型的预测能力

绘制ROC曲线并计算AUC（曲线下面积）。

相关文章