IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据

如何通过方法有效的分析海量数据,并从其中找到有利的资讯已经成为一种趋势。

由Kaizong Ye,Colin Ge撰写

而决策树算法是目前在进行数据分析时很常用的方法。


本文将使用IBM SPSS Modeler进行实践,介绍决策树在空气污染预测领域的实践案例。

分类预测模型的构建流程,具体步骤如下:

(1)数据处理 :审核数据,过滤掉含有缺失值的数据记录。

(2)划分数据集,训练集70%,测试集30% 。

(3)构建模型时的参数设置 。

(4)构建模型:构建C5.0模型。

(5)结果评估,用测试集数据运行得到的运行结果,对模型采用命中率评估两个模型的预测效果。


视频

从决策树到随机森林:R语言信用卡违约分析信贷数据实例

探索见解

去bilibili观看

探索更多视频

加入表节点

image.png

读取数据

image.png

添加“抽样”节点

随机抽取70%的样本作为训练集

生成的决策树模型,并对测试数据进行预测

得到测试数据的分类结果的准确度


spss modeler用决策树神经网络预测ST的股票

阅读文章


image.png


随时关注您喜欢的主题


预测分类结果

image.png

有88.1%的测试样本的预测值和实际值相符。

并且得到如下的决策树模型:

QQ截图202211071216502.png

其中变量的重要性如下图所示:

image.png

从结果可以看到,首要污染物类型与AQI、NO2还有O3等变量有关。其中AQI对首要污染物类型的结果具有最重要的影响。

C5.0是在C4.5的基础上发展起来的。C5.0 算法是用信息增益(根节点的熵减去该拆分的熵)来度量拆分纯度的。第一次拆分某一字段,划分出相对应的样本子集。然后继续拆分这些样本子集,一般情况下使用的是另一字段进行拆分,一直循环这样一个过程,直到满足拆分终止条件。最后,若生成的树出现过度拟合的状况,则要修剪那些缺乏价值的样本子集。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds