SPSS modeler用关联规则Apriori模型对笔记本电脑购买事务销量研究

SPSS modeler用关联规则Apriori模型对笔记本电脑购买事务销量研究

由Kaizong Ye,Colin Ge撰写

自2011年全球PC出货量达到历史最高的3.64亿台后,全球PC市场出货量已经连续四年下滑。


市场调研公司Gartner最新数据显示,2015年Q3全球PC销量同比降低7.7%,至7370万台。

IDC数据更加不乐观,2015年Q3全球PC出货量共计7100万台,同比下降10.8%,相比之前预测的下滑9.2%更夸张。

其中,中国市场下滑幅度预计在6%左右。本次调查就是针对笔记本电脑销量运用数据挖掘的方式展开讨论

研究数据及范围

本研究以统计学原理为基础,通过网上收集已有的数据并调查,采用数据挖掘技术以及描述性的统计方法,对笔记本电脑销量问题进行研究,分析什么影响群众购买笔记本电脑情况?

本次数据是在数据网站搜集到的spss类型的数据,共有13个变量,5000多份数据资料,没有系统缺失值。其中5个定距变量,8个定类变量

image.png

研究目的:

1、寻找影响笔记本电脑销量的主要因素。

2、建立基于数据挖掘技术的有关笔记本电脑销量预测模型。


视频

关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化

探索见解

去bilibili观看

探索更多视频

研究方法

运用数据挖掘clemtime描述性分析,推断性分析,和建模分析

分析过程

1.数据导入与异常值和离群值的处理

image.png

我们可以看见数据存在离群值和异常值,对于离群值,我采用coerce,即用距离离群值最近的正常值代替它们。对于极端值采用discard extremes,即剔除极端值。

基本描述分析

通过clmtime描述性分析并作图,

销售价格与月成交量的基本关系:散点图,

image.png
image.png

图片

R语言Apriori关联规则、kmeans聚类、决策树挖掘研究京东商城网络购物用户行为数据可视化

阅读文章


从图中可以看出散点集中在部分品牌,如联想,苹果,戴尔等;

模型简介

    关联规则是数据挖掘算法中主要技术之一,是在无指导学习系统中挖掘本地模式的最普遍形式。在数据挖掘中,常见的关联规则挖掘模型有AIS、SETM、Apriori、DHP、MLT2L1、ML-TML1等。其中,Apriori算法是一种最有影响的挖掘关联规则频繁项集的模型。


随时关注您喜欢的主题


Apriori模型原理

    Apriori算法通过多次扫描事务数据库来产生频繁项目集,我们称这种方法为逐层搜索迭代法。具体地说,该算法的基本思想是通过对数据库的多次扫描来发现所有的频繁项集。首先第1遍扫描事务数据库生成频繁1项集,记为L1;然后基于L1第2遍扫描事务数据库生成频繁2项集,记为L2;依此迭代,基于L(k-1)第k遍扫描事务数据库生成频繁k项集,记为Lk。

在后续的扫描中,首先以前一次所发现的所有频繁项集为基础,生成所有新的候选项集(Candidate Item sets),然后扫描数据库,计算这些候选项集的支持度,最后确定候选项集中哪些可成为频繁项集。重复上述过程直到再也产生不出新的频繁项集。

image.png

仿真

平台及数据

为了验证Apriori模型在DSS数据挖掘中应用的可行性,本文在SPSS modeler软件平台上对Apriori模型进行仿真。实验数据来自于某电商网站的DSS系统中的顾客及购买电脑数据。数据包括1277条购买事务记录,每条购买事务记录中包含内容:价格、月成交量、累计评价、人气、产品名称、能效等级、品牌、屏幕尺寸、显存容量、机械硬盘容量、内存容量等。

本文结合Apriori模型分析DSS中的顾客信息及购买数据分析哪些特征电脑最有可能购买。

价格月成交量累计评价人气产品名称能效等级品牌屏幕尺寸显存容量机械硬盘容量内存容量
329920513534099Acer/宏碁 E5 E5-572G-…一级Acer/宏碁15.6英寸2GB500GB4GB
329920513534099Acer/宏碁 E5 E5-572G-…一级Acer/宏碁15.6英寸2GB500GB4GB
3609183214914134Acer/宏碁 E15 E5-572G-…一级Acer/宏碁15.6英寸2GB500GB4GB
3609183214914134Acer/宏碁 E15 E5-572G-…一级Acer/宏碁15.6英寸2GB500GB4GB
3609183214914134Acer/宏碁 E15 E5-572G-…一级Acer/宏碁15.6英寸2GB500GB4GB
3609183214914134Acer/宏碁 E15 E5-572G-…一级Acer/宏碁15.6英寸2GB500GB4GB
4709881951409Acer/宏碁 威武 V5-591G一级Acer/宏碁15.6英寸2GB1TB8GB
4709881951409Acer/宏碁 威武 V5-591G一级Acer/宏碁15.6英寸2GB1TB8GB
4709881951409Acer/宏碁 威武 V5-591G一级Acer/宏碁15.6英寸2GB1TB8GB
4400881594365Acer/宏碁 Aspire F15 F5…一级Acer/宏碁15.6英寸4GB1TB8GB
7588854452492Apple/苹果 MacBook Air …Apple/苹果13.3英寸共享内存容量无机械硬盘4GB
7588854452492Apple/苹果 MacBook Air …Apple/苹果13.3英寸共享内存容量无机械硬盘4GB

实验结果及分析

本文分别用Apriori算法对数据进行处理挖掘,具体结果如下所示。

Apriori算法

 虽然 Apriori 算法可以直接挖掘生成表中的交易数据集,但是为了关联挖掘其他算法的需要先把交易数据集转换成分析数据集,构建的数据流如图 1 所示。

QQ截图20231128144503.png

通过格式转换,发现数据源中共有二十种电脑,设最低条件支持度为15%,最小规则置信度为30%,最大前项数为5,选择专家模式,挖掘出大类电脑的13条关联规则,如图 2 所示。生成的13条规则如下所示:

image.png

从实验结果来看,实验产生了三条置信度和支持度最高的关联规则:分别为能效等级 = 一级,品牌 = Lenovo/联想,支持度=19.27899686,置信度=97.5609756097561;m能效等级 = 一级,品牌 = Lenovo/联想 and 内存容量 = 4GB   ,支持度=12.695924764890282  ,置信度=97.53086419753086;能效等级 = 一级,       品牌 = Lenovo/联想 and 显存容量 = 2GB       支持度=13.166144200626958    ,置信度=96.42857142857143。同时,三条关联规则的提升值都可以接受。因此,能效等级、品牌 = Lenovo/联想、内存容量是最可能连带销售的电脑特征。因此,在实际销售或者在电脑的摆放过程中,可以将这些特征的电脑进行捆绑销售。

分析及建议: 通过表 2 可以清晰的看到购买Lenovo/联想、能效等级 = 一级的顾客比较多,建议电商网站可以加大对这些电脑的采购,由上述结果可知,同时购买Lenovo/联想、能效等级 = 一级的顾客的情况占总订单数的19.27%,能效等级 = 一级,品牌 = Lenovo/联想 and 内存容量 = 4GB的订单分别占总订单数的12.69%,购买能效等级 = 一级电脑的人有97.530会购买Lenovo/联想,95%的人会购买华硕,由此可见,能效等级、内存、品牌这三种电脑特征关联度较高,可以将能效等级 = 一级、Lenovo/联想、华硕的电脑摆放在一块,从而增加销量。此外,在符合支持度和置信度的条件下没有顾客购买东芝、清华同方等,建议有关人员减少这几种电脑的进货量,但为了保持电脑的多样性,还是要适当地进货。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds