sas神经网络:构建人工神经网络模型来识别垃圾邮件

神经网络是一种非常通用的灵活预测模型,可用于解决各种问题,包括分类,降维和回归。

现实世界中的一些业务应用示例包括图像处理,医疗诊断,金融服务和欺诈检测。此样本说明如何使用SAS®In-Memory Statistics中的NEURAL语句来构建人工神经网络模型来识别垃圾邮件。

该示例中使用的数据集是机器学习存储库中的经典Spambase数据集。请注意,SAS®内存中统计信息具有直接将数据直接从URL加载到内存中的功能,而无需保存到磁盘,如示例所示。该示例还演示了如何执行以下任务:

1.对从不同点开始的几个“浅”神经网络进行预训练,以避免创建由于初始权重差而无效的神经网络。
2.从预训练的神经网络中选择最佳的神经网络,然后继续分析以训练更深的神经网络作为最终模型。
3.使用最终的神经网络模型对验证数据集评分。
4.使用评分结果和ASSESS语句执行模型评估。
5.根据ASSESS语句的结果绘制升力和ROC曲线。


热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程

1.从不同点到预训练几个“浅”神经网络,避免创建因初始值不佳而无效的神经网络。

2.从预训练的神经网络中选择最佳的神经网络,然后继续分析以训练更深层的神经网络作为最终模型。

3.使用经过训练的神经网络模型对分数进行验证。 ASSESS选项指定为所有级别的得分数据添加预测概率标称目标变量。 在此示例中,创建了两个级别,因为名为class的变量具有两个值0或1。计分的数据为存储在临时表中。

 4.使用评分结果执行模型评估。 所有级别的概率都在输出中,但是我们仅需要事件级别的概率。 WHERE子句仅用于选择具有事件级别的行。 剥离功能适用于删除字符变量_NN_Level_中的空格。

5.根据ASSESS语句的结果绘制升力和ROC曲线。

 该模型信息表

​​

分数信息表
​​

提升曲线
​​

ROC 曲线


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498