决策树是对例子进行分类的一种简单表示。

由Kaizong Ye，Liao Bao撰写

最近我们被客户要求撰写关于决策树模型的研究报告。它是一种有监督的机器学习技术，数据根据某个参数被连续分割。决策树分析可以帮助解决分类和回归问题。

决策树算法将数据集分解成更小的子集；同时，相关的决策树也在逐步发展。

决策树的核心思路

特征选择：从训练数据的特征中选择一个特征作为当前节点的分裂标准（特征选择的标准不同产生了不同的特征决策树算法）。

决策树生成：根据所选特征评估标准，从上至下递归地生成子节点，直到数据集不可分则停止决策树停止声场。

剪枝：决策树容易过拟合，需要剪枝来缩小树的结构和规模（包括预剪枝和后剪枝）。

熵的概念：度量信息的方式

实现决策树的算法包括ID3、C4.5算法等。常见的ID3核心思想是以信息增益度量属性选择，选择分裂后信息增益最大的属性进行分裂。

一条信息的信息量大小和它的不确定性有直接的关系，要搞清楚一件非常不确定的事情，或者是我们一无所知的事情，需要大量的信息====>信息量的度量就等于不确定性的多少。也就是说变量的不确定性越大，熵就越大

决策树由节点（测试某个属性的值）、边/分支（对应于测试的结果并连接到下一个节点或叶子）和叶子节点（预测结果的终端节点）组成，使其成为一个完整的结构。

在这篇文章中，我们将学习Python中决策树的实现，使用scikit learn包。

对于我们的分析，我们选择了一个非常相关和独特的数据集，该数据集适用于医学科学领域，它将有助于预测病人是否患有糖尿病，基于数据集中采集的变量。这些信息来自国家糖尿病、消化道和肾脏疾病研究所，包括预测变量，如病人的BMI、怀孕情况、胰岛素水平、年龄等。让我们直接用决策树算法来解决这个问题，进行分类。

用Python实现决策树

对于任何数据分析问题，我们首先要清理数据集，删除数据中的所有空值和缺失值。在这种情况下，我们不是在处理错误的数据，这使我们省去了这一步。

1. 为我们的决策树分析导入所需的库并拉入所需的数据

# 加载库
from sklearn.model\_selection import train\_test\_split #导入 train\_test_split 函数
from sklearn import metrics #导入scikit-learn模块以计算准确率

# 载入数据集
data = pd.read\_csv("diabetes.csv", header=None, names=col\_names)

让我们看看这个数据集的前几行是什么样子的

pima.head()

可下载资源

完整程序、数据和文档（word）

作者

Kaizong Ye
✉ 联系我们

最受欢迎的见解

1.从决策树模型看员工为什么离职

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

2. 在加载数据后，我们了解结构和变量，确定目标变量和特征变量（分别为因变量和自变量）。

#在特征和目标变量中拆分数据集
X = pima\[feature\] # 特征
y = pima.label # 目标变量

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

3. 我们把数据按70:30的比例分成训练集和测试集。

# 将数据集分成训练集和测试集
train\_test\_split(X, y, test\_size=0.3, random\_state=1) # 70%的训练和30%的测试

作为标准做法，你可以根据需要遵循70:30至80:20。

4. 使用scikit learn进行决策树分析

# 创建决策树分类器对象
clf = DecisionTreeClassifier()

5. 估计分类器预测结果的准确程度。准确度是通过比较实际测试集值和预测值来计算的。

# 模型准确率，分类器正确的概率是多少？
print("准确率:",metrics.accuracy\_score(y\_test, y_pred))

我们的决策树算法有67.53%的准确性。这么高的数值通常被认为是好的模型。

6. 现在我们已经创建了一棵决策树，看看它在可视化的时候是什么样子的

决策树的可视化。

Image(graph.create_png())

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

阅读文章 ➜

Python输出

你会注意到，在这个决策树图中，每个内部节点都有一个分割数据的决策规则。

随时关注您喜欢的主题

衡量通过决策树分析创建的节点的不纯度

Gini指的是Gini比，衡量决策树中节点的不纯度。人们可以认为，当一个节点的所有记录都属于同一类别时，该节点是纯的。这样的节点被称为叶子节点。

在我们上面的结果中，由于结果的复杂性，完整的决策树很难解释。修剪一棵树对于结果的理解和优化它是至关重要的。这种优化可以通过以下三种方式之一进行。

标准：默认=”gini”
splitter：字符串，可选（默认=”best”）或分割策略。选择分割策略。可以选择 “best“来选择最佳分割，或者选择 “random”来选择最佳随机分割。
max_depth: int或None，可选（默认=None）或树的最大深度
这个参数决定了树的最大深度。这个变量的数值越高，就会导致过度拟合，数值越低，就会导致拟合不足。

在我们的案例中，我们将改变树的最大深度作为预修剪的控制变量。让我们试试max_depth=3。

# 创建决策树分类器对象
DecisionTree( max_depth=3)

在Pre-pruning上，决策树算法的准确率提高到77.05%，明显优于之前的模型。

决策树在Python中的实现

Image(graph.create_png())

结果：

Python输出

这个修剪过的模型的结果看起来很容易解释。

有了这个，我们就能够对数据进行分类，并预测一个人是否患有糖尿病。但是，决策树并不是你可以用来提取这些信息的唯一技术，你还可以探索其他各种方法。

如果你想学习和实现这些算法，那么你应该探索通过辅助方法学习，并得到专业人士的1对1指导。拓端数据科学职业轨道计划保证了1:1的指导，项目驱动的方法，职业辅导，提供实习工作项目保证，来帮助你将职业生涯转变为数据驱动和决策的角色。请联系我们以了解更多信息!

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

Python用决策树分类预测糖尿病和可视化实例

决策树是对例子进行分类的一种简单表示。

用Python实现决策树

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

Python输出

随时关注您喜欢的主题

衡量通过决策树分析创建的节点的不纯度

在我们的案例中，我们将改变树的最大深度作为预修剪的控制变量。让我们试试max_depth=3。

Python输出

这个修剪过的模型的结果看起来很容易解释。

相关文章

Python用决策树分类预测糖尿病和可视化实例

决策树是对例子进行分类的一种简单表示。

用Python实现决策树

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

Python输出

随时关注您喜欢的主题

衡量通过决策树分析创建的节点的不纯度

在我们的案例中，我们将改变树的最大深度作为预修剪的控制变量。让我们试试max_depth=3。

Python输出

这个修剪过的模型的结果看起来很容易解释。

相关文章

关注有关新文章的微信公众号