SPSS多层感知器 (MLP)神经网络预测全国污染物综合利用量数据

随着全球经济的不断发展,污染物的排放和环境污染问题日益严重。

由Kaizong Ye,Weilong Zhang撰写

解决这一问题的关键在于有效地利用污染物资源,以降低对环境的负面影响。

综合利用污染物资源不仅有助于减少所需的原材料消耗,还有助于降低环境排放和废物处理的成本。


因此,探索和预测全国污染物综合利用量数据,对于制定相关政策和促进可持续发展至关重要。

传统的污染物综合利用量数据预测方法主要基于统计模型,但其在处理非线性复杂关系时表现出局限性。

近年来,神经网络模型作为一种强大的数据建模工具,被广泛应用于各个领域的预测和决策支持任务。在本研究中,我们将利用SPSS工具基于多层感知器(MLP)神经网络来预测全国污染物综合利用量数据。


视频

人工神经网络ANN中的前向传播和R语言分析学生成绩数据案例

探索见解

去bilibili观看

探索更多视频

本研究的目标是通过构建一个可靠的预测模型,帮助客户分析并预测未来全国范围内的污染物综合利用量。首先,我们将收集并整理全国各地的污染物综合利用量数据,并进行预处理以消除异常值和缺失数据。接下来,我们将使用SPSS工具中的MLP神经网络算法,通过对历史数据的学习和训练,建立一个能够准确预测未来污染物综合利用量的模型。

多层感知器 (MLP)

在多层感知器(MLP)对话框中,你可以选择你想包含在模型中的变量。用神经网络技术探索数据的结果可以用多种图形格式表示。这个简单的条形图是多种选择中的一种。

所示的多层感知器,数据前馈式通过输入层、隐藏层传递到输出层。

■ 选项“结构”用来设置神经网络的结构,您可以设定:  

– 是否使用自动选择结构– 神经网络的隐藏层个数 

– 隐藏层单元之间的激活函数(双曲函数或者S型函数)– 输出层单元之间的激活函数(标识,双曲, S型, SoftMax函数)

MLP通过多层感知器来拟合神经网络。多层感知器是一个前馈式有监督的结构。它可以包含多个隐藏层。一个或者多个因变量,这些因变量可以是连续型、分类型、或者两者的结合。如果因变量是连续型,神经网络预测的连续值是输入数据的某个连续函数。如果因变量是分类型,神经网络会根据输入数据,将记录划分为最适合的类别。

 

确定被解释变量和解释变量

被解释变量:污染物综合利用量(Y, Utility)

解释变量:

(1)     目标变量:污染物综合产生量(X1, Generate),作为污染物综合利用量的主要来源,污染物综合产生量(X1)的预测方向主要为与污染物综合利用量(Y)呈正相关关系,即污染物综合产生量越大,污染物综合利用量也越大。

(2)     控制变量:

国内生产总值(X3,GDP)(选取第二产业的国内生产总值),作为污染物综合利用量的主要控制变量,国内生产总值(X3)的预测方向主要为与污染物综合利用量(Y)呈正相关关系,即国内生产总值越大,污染物综合利用量也越大。

绿地面积(X2, Green),作为污染物综合利用量的主要去向,绿地面积(X2)的预测方向主要为与污染物综合利用量(Y)呈正相关关系,即绿地面积越大,污染物综合利用量也越大。

image.png

设置模型参数

分别设置因变量和自变量

image.png

确定训练集和测试集的比列

用神经网络技术探索数据的结果可以用多种图形格式表示。

image.png

R语言中的神经网络预测时间序列:多层感知器(MLP)和极限学习机(ELM)数据分析报告

阅读文章


得到模型的结果

image.png

首先得到是模型的训练误差。误差在0.04左右说明模型拟合较好,相对误差在0.01左右。


随时关注您喜欢的主题


Network Information
Input LayerFactors1Numbers
2Generate(X1)
3Green(X2)
4GDP(X3)
 Number of Unitsa310
Hidden Layer(s) Number of Hidden Layers1
Number of Units in Hidden Layer 1a13
Activation FunctionHyperbolic tangent
Output LayerDependent Variables1Utilize(Y)
Number of Units1
Rescaling Method for Scale DependentsStandardized
Activation FunctionIdentity
Error FunctionSum of Squares
a. Excluding the bias unit

然后是神经网络的特征信息,该模型一共有1个隐藏层 13个神经元 

然后得到神经网络的预测值

image.png

和预测的残差值

image.png

可以看到预测的残差均匀分布在0线周围。说明模型拟合较好。

然后输出模型的重要变量。

 基于神经网络的属性重要性评价是以神经网络为模型来衡量模型中输入变量对模型输出的影响程度。它一方面可以神经网络为工具,按照重要性对属性排序;另一方面还可增加神经网络的解释性、减少网络的复杂度、简化网络的结构、提高网络的泛化能力。从结果中可以看到number是最重要的变量们其次是污染物综合产生量 然后是绿地面积 然后是GDP,最后是year。

变量重要性

自变量的重要性
 重要性标准化的重要性
Numbers.327100.0%
Generate(X1).19559.5%
Green(X2).23371.2%
GDP(X3).20662.9%
Year.03911.8%
1.png

代码:

*Multilayer Perceptron Network. MLP UtilizeY (MLEVEL=S) BY Numbers GenerateX1 GreenX2 GDPX3   /PARTITION  VARIABLE=Year   /ARCHITECTURE   AUTOMATIC=YES (MINUNITS=1 MAXUNITS=50)   /CRITERIA TRAINING=BATCH OPTIMIZATION=SCALEDCONJUGATE LAMBDAINITIAL=0.0000005 SIGMAINITIAL=0.00005 INTERVALCENTER=0 INTERVALOFFSET    =0.5 MEMSIZE=1000   /PRINT CPS NETWORKINFO SUMMARY CLASSIFICATION IMPORTANCE   /PL

最后我们得到了以下结果:

image.png
image.png
image.png
image.png


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。Kaizong Ye拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds