最近我们被客户要求撰写关于预测心脏病的研究报告。这个数据集可以追溯到1988年，由四个数据库组成。

由Kaizong Ye，Liao Bao撰写

克利夫兰、匈牙利、瑞士和长滩。”目标 “字段是指病人是否有心脏病。它的数值为整数，0=无病，1=有病。

目标:

主要目的是预测给定的人是否有心脏病，借助于几个因素，如年龄、胆固醇水平、胸痛类型等。

我们在这个问题上使用的算法是：

二元逻辑回归
Naive Bayes算法
决策树
随机森林

CUT OFF值的设定有多种不同方法。常见的方法包括：

一、使用阴性血清测定结果均值的2或3倍作为CUT OFF值

该方法是取一定数量（通常不多）的阴性血清样本，使用免疫检测试剂盒进行测定，取阴性样本的测值的平均值。若上述阴性样本的平均值为X，则该次测定的CUT OFF值为2X或3X。例如，试剂盒结果判定以S（样本测值）/N（阴性对平均测值）≥2.1为阳性，其依据即是以阴性参考血清的2.1倍作为CUT OFF值。通常为了避免阴性样本测值过低导致的CUT OFF值过低，还会规定阴性样本平均测值不到某一特定值，如0.05时，以0.05计算，即CUT OFF值不低于0.10。采用这种方法设定CUTOFF值，可以有效避免假阳性结果的出现，但易导致假阴性结果较多，是一种非常粗糙的CUT OFF值设定方法。

二、阴性对照平均测值+2个标准差（SD）或3SD作为CUT OFF值

先取大量（数千）正常人（阴性）血清样本进行检测，当阴性样本量足够大时，使用试剂盒检测所得测值将呈正态分布，若要求95.3％(单侧)的可信度，可将阴性样本平均测值+2SD作为CUT OFF值；若要求99%（单侧）的可信度，则以阴性样本平均测值+3SD作为CUT OFF值。这种方法建立在统计学计算的基础上，相比于第一种方法，更为科学。但这种方法仅考虑正常人群（阴性样本），因此难以界定“灰区”，几乎所有灰区样本都阴性结果处理，可能会出现较多假阴性。

三、综合阴性对照均值+2或3SD及阳性对照均值-2或3SD建立CUT OFF值

先测定大量阴性血清样本，若测值为正态分布，在具有95.3%（单侧）的可信度的情况下，可以将从阴性样本中得到的测值+2SD得到一侧CUT OFF值，若要求99%（单侧）的可信度，则以测值+3SD为一侧CUT OFF值。然后检测大量阳性样本，在具有95.3%（单侧）的可信度的情况下，可以将从阳样本中得到的测值-2SD得到另一侧CUTOFF值，若要求99%（单侧）的可信度，则以测值-3SD为另一侧CUT OFF值。阴性和阳性样本的CUT OFF值确定后，根据“灰区”的大小，综合平衡考虑假阳性率和假阴性率，确定试剂盒的CUT OFF值。这种方法对比方法二，对阳性人群也有考虑，并且对“灰区”的存在有一定估计，不会出现将“灰区”全部归为阴性结果的情况。

若样本测值为非正态分布，可采用“百分位数法”，以阴阳性样本测定结果的百分位数单侧95%或99%分别来确定两侧CUT OFF值，再综合平衡考虑假阳性率和假阴性率。

四、在方法三的基础上，增加检测血清转化盘样本

在检测大量阴性及阳性样本基础上，检测转化型血清（从阴性转变为阳性过程中的系列血清）样本，取假阳性和假阴性发生率最低、且能区别抗原转化至抗体出现点的吸光度值作为CUT OFF值。由此确定的CUT OFF值能有最佳区分阴阳性样本的能力。

五、ROC曲线（受试者工作曲线）法

ROC曲线是以假阳性率（1-特异性）为横坐标，真阳性率（灵敏度）为纵坐标所绘制的一条曲线，是反映敏感度和特异度连续变量的综合指标，用作图法展示两度之间的关系。

数据集的描述:

该数据有303个观察值和14个变量。每个观察值都包含关于个人的以下信息。

年龄:- 个人的年龄，以年为单位
sex:- 性别（1=男性；0=女性）
cp – 胸痛类型（1=典型心绞痛；2=非典型心绞痛；3=非心绞痛；4=无症状）。
trestbps–静息血压
chol – 血清胆固醇，单位：mg/dl
fbs – 空腹血糖水平>120 mg/dl（1=真；0=假)
restecg – 静息心电图结果（0=正常；1=有ST-T；2=肥大)
thalach – 达到的最大心率
exang – 运动诱发的心绞痛（1=是；0=否)
oldpeak – 相对于静止状态，运动诱发的ST压低
slope – 运动时ST段峰值的斜率（1=上斜；2=平坦；3=下斜)
ca – 主要血管的数量（0-4），由Flourosopy着色
地中海贫血症–地中海贫血症是一种遗传性血液疾病，会影响身体产生血红蛋白和红细胞的能力。1=正常；2=固定缺陷；3=可逆转缺陷
目标–预测属性–心脏疾病的诊断（血管造影疾病状态）（值0=<50%直径狭窄；值1=>50%直径狭窄)

在Rstudio中加载数据

可下载资源

完整程序、数据和文档（word）

本文分析的智能体、数据、代码、报告分享至会员群

加入会员群

作者

Kaizong Ye
✉ 联系我们

最受欢迎的见解

1.从决策树模型看员工为什么离职

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

视频

贝叶斯推断线性回归与R语言预测工人工资数据

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

heart<-read.csv("heart.csv",header = T)

header = T意味着给定的数据有自己的标题，或者换句话说，第一个观测值也被考虑用于预测。

head(heart)

当我们想查看和检查数据的前六个观察点时，我们使用head函数。

tail(heart)

显示的是我们数据中最后面的六个观察点

colSums(is.na(heart))

这个函数是用来检查我们的数据是否包含任何NA值。
如果没有发现NA，我们就可以继续前进，否则我们就必须在之前删除NA。

检查我们的数据结构

str(heart)

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

阅读文章 ➜

查看我们的数据摘要

summary(heart)

随时关注您喜欢的主题

通过观察以上的总结，我们可以说以下几点

性别不是连续变量，因为根据我们的描述，它可以是男性或女性。因此，我们必须将性别这个变量名称从整数转换为因子。
cp不能成为连续变量，因为它是胸痛的类型。由于它是胸痛的类型，我们必须将变量cp转换为因子。
fbs不能是连续变量或整数，因为它显示血糖水平是否低于120mg/dl。
restecg是因子，因为它是心电图结果的类型。它不能是整数。所以，我们要把它转换为因子和标签。
根据数据集的描述，exang应该是因子。心绞痛发生或不发生。因此，将该变量转换为因子。
斜率不能是整数，因为它是在心电图中观察到的斜率类型。因此，我们将变量转换为因子。
根据数据集的描述，ca不是整数。因此，我们要将该变量转换为因子。
thal不是整数，因为它是地中海贫血的类型。因此，我们将变量转换为因子。
目标是预测变量，告诉我们这个人是否有心脏病。因此，我们将该变量转换为因子，并为其贴上标签。

根据上述考虑，我们对变量做了一些变化

#例如
sex<-as.factor(sex)
levels(sex)<-c("Female","Male")

检查上述变化是否执行成功

str(heart)

summary(heart)

EDA

EDA是探索性数据分析（Exploratory Data Analysis）的缩写，它是一种数据分析的方法/哲学，采用各种技术（主要是图形技术）来深入了解数据集。

对于图形表示，我们需要库 “ggplot2”

library(ggplot2)
ggplot(heart,aes(x=age,fill=target,color=target)) + geom_histogram(binwidth = 1,color="black") + labs(x = "Age",y = "Frequency", title = "Heart Disease w.r.t. Age")

我们可以得出结论，与60岁以上的人相比，40至60岁的人患心脏病的概率最高。

table <- table(cp)

pie(table)

我们可以得出结论，在所有类型的胸痛中，在个人身上观察到的大多数是典型的胸痛类型，然后是非心绞痛。

首先，我们将数据集分为训练数据（75%）和测试数据（25%）。

执行机器学习算法

Logistic回归

set.seed(100) 
#100用于控制抽样的permutation为100. 
index<-sample(nrow(heart),0.75*nrow(heart))

在训练数据上生成模型，然后用测试数据验证模型。

glm(family = "binomial")
# family = " 二项式 "意味着只包含两个结果。

为了检查我们的模型是如何生成的，我们需要计算预测分数和建立混淆矩阵来了解模型的准确性。

pred<-fitted(blr)
# 拟合只能用于获得生成模型的数据的预测分数。

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

我们可以看到，预测的分数是患心脏病的概率。但我们必须找到一个适当的分界点，从这个分界点可以很容易地区分是否患有心脏病。

为此，我们需要ROC曲线，这是一个显示分类模型在所有分类阈值下的性能的图形。它将使我们能够采取适当的临界值。

pred<-prediction(train$pred,train$target)
perf<-performance(pred,"tpr","fpr")
plot(perf,colorize = T,print.cutoffs.at = seq(0.1,by = 0.1))

通过使用ROC曲线，我们可以观察到0.6具有更好的敏感性和特异性，因此我们选择0.6作为区分的分界点。

pred1<-ifelse(pred<0.6,"No","Yes")

# 训练数据的准确性
acc_tr

从训练数据的混淆矩阵中，我们知道模型有88.55%的准确性。

现在在测试数据上验证该模型

predict(type = "response")
## type = "response "是用来获得患有心脏病的概率的结果。
head(test)

我们知道，对于训练数据来说，临界点是0.6。同样地，测试数据也会有相同的临界点。

confusionMatrix((pred1),target)

#测试数据的准确性.

检查我们的预测值有多少位于曲线内

auc@y.values

我们可以得出结论，我们的准确率为81.58%，90.26%的预测值位于曲线之下。同时，我们的错误分类率为18.42%。

Naive Bayes算法

在执行Naive Bayes算法之前，需要删除我们在执行BLR时添加的额外预测列。

#naivebayes模型
nB(target~.)

用训练数据检查模型，并创建其混淆矩阵，来了解模型的准确程度。

predict(train)
confMat(pred,target)

我们可以说，贝叶斯算法对训练数据的准确率为85.46%。

现在，通过预测和创建混淆矩阵来验证测试数据的模型。

Matrix(pred,target)

我们可以得出结论，在Naive Bayes算法的帮助下生成的模型准确率为78.95%，或者我们也可以说Naive Bayes算法的错误分类率为21.05%。

决策树

在实施决策树之前，我们需要删除我们在执行Naive Bayes算法时添加的额外列。

train$pred<-NULL

rpart代表递归分区和回归树

当自变量和因变量都是连续的或分类的时候，就会用到rpart。

rpart会自动检测是否要根据因变量进行回归或分类。

实施决策树

plot(tree)

在决策树的帮助下，我们可以说所有变量中最重要的是CP、CA、THAL、Oldpeak。

让我们用测试数据来验证这个模型，并找出模型的准确性。

conMat(pred,targ)

我们可以说，决策树的准确率为76.32%，或者说它的错误分类率为23.68%。

随机森林

在执行随机森林之前，我们需要删除我们在执行决策树时添加的额外预测列。

test$pred<-NULL

在随机森林中，我们不需要将数据分成训练数据和测试数据，我们直接在整个数据上生成模型。为了生成模型，我们需要使用随机森林库

# Set.seed通过限制permutation来控制随机性。

set.seed(100)
model_rf<-randomForest(target~.,data = heart)
model_rf

在图上绘制出随机森林与误差的关系。

plot(model_rf)

红线代表没有心脏病的MCR，绿线代表有心脏病的MCR，黑线代表总体MCR或OOB误差。总体误差率是我们感兴趣的，结果不错。

结论

在进行了各种分类技术并考虑到它们的准确性后，我们可以得出结论，所有模型的准确性都在76%到84%之间。其中，随机森林的准确率略高，为83.5%。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

最近我们被客户要求撰写关于预测心脏病的研究报告。这个数据集可以追溯到1988年，由四个数据库组成。

目标:

数据集的描述:

检查我们的数据结构

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

随时关注您喜欢的主题

EDA

EDA是探索性数据分析（Exploratory Data Analysis）的缩写，它是一种数据分析的方法/哲学，采用各种技术（主要是图形技术）来深入了解数据集。

首先，我们将数据集分为训练数据（75%）和测试数据（25%）。

执行机器学习算法

Logistic回归

Naive Bayes算法

决策树

实施决策树

随机森林

结论

相关文章

R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

最近我们被客户要求撰写关于预测心脏病的研究报告。这个数据集可以追溯到1988年，由四个数据库组成。

目标:

数据集的描述:

检查我们的数据结构

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

随时关注您喜欢的主题

EDA

EDA是探索性数据分析（Exploratory Data Analysis）的缩写，它是一种数据分析的方法/哲学，采用各种技术（主要是图形技术）来深入了解数据集。

首先，我们将数据集分为训练数据（75%）和测试数据（25%）。

执行机器学习算法

Logistic回归

Naive Bayes算法

决策树

实施决策树

随机森林

结论

相关文章

关注有关新文章的微信公众号