如何通过方法有效的分析海量数据，并从其中找到有利的资讯已经成为一种趋势。

由Kaizong Ye，Colin Ge撰写

而决策树算法是目前在进行数据分析时很常用的方法。

本文将详细阐述如何使用IBM SPSS Modeler这一业界领先的数据挖掘和统计分析工具，通过实际案例来展示决策树在空气污染预测领域的深入应用。我们将逐步解析整个实践过程，从数据的收集与预处理，到模型的构建与优化，再到结果的解读与应用，旨在为读者提供一个全面且深入的实践指南。

在空气污染预测领域，决策树模型因其直观易懂、解释性强以及处理分类问题的高效性而备受关注。通过IBM SPSS Modeler，我们可以方便地对决策树模型进行构建和调整，以适应不同的数据集和预测需求。实践案例中，我们将展示如何根据历史空气质量数据，构建决策树模型来预测未来的空气污染状况。

可下载资源

完整程序、数据和文档（word）

作者

Kaizong Ye
✉ 联系我们

分类预测模型的构建流程，具体步骤如下：

（1）数据处理：审核数据，过滤掉含有缺失值的数据记录。

× 当估计的属性值是离散值时，这就是分类；当估计的属性值是连续值时，这就是预测。

（2）划分数据集，训练集70%，测试集30% 。

（3）构建模型时的参数设置。

（4）构建模型：构建C5.0模型。

（5）结果评估，用测试集数据运行得到的运行结果，对模型采用命中率评估两个模型的预测效果。

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

加入表节点

读取数据

添加“抽样”节点

随机抽取70%的样本作为训练集

“C5.0”节点

最受欢迎的见解

1.PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

生成的决策树模型，并对测试数据进行预测

得到测试数据的分类结果的准确度

spss modeler用决策树神经网络预测ST的股票

阅读文章 ➜

随时关注您喜欢的主题

预测分类结果

有88.1%的测试样本的预测值和实际值相符。

并且得到如下的决策树模型：

其中变量的重要性如下图所示：

从结果可以看到，首要污染物类型与AQI、NO2还有O3等变量有关。其中AQI对首要污染物类型的结果具有最重要的影响。

C5.0是在C4.5的基础上发展起来的。C5.0 算法是用信息增益（根节点的熵减去该拆分的熵）来度量拆分纯度的。第一次拆分某一字段，划分出相对应的样本子集。然后继续拆分这些样本子集，一般情况下使用的是另一字段进行拆分，一直循环这样一个过程，直到满足拆分终止条件。最后，若生成的树出现过度拟合的状况，则要修剪那些缺乏价值的样本子集。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！