物流发货明细数据在现代物流业中扮演着至关重要的角色。

通过对这些数据进行挖掘和分析，我们可以发现隐含在背后的供应链运营规律和商业模式，从而指导企业在物流策略、成本管理和客户服务等方面做出更加科学和有效的决策。

由Kaizong Ye，Liao Bao撰写

SPSS Modeler是一款功能强大、界面友好的数据挖掘和分析工具，可以帮助企业对物流发货明细数据进行深入和准确的挖掘分析，提高数据价值和运营效率。

× 根据样本的属性，使用某种算法计算相似性或者差异性指标，以确定每个个案之间的亲疏关系，最终将所有个案分为多个相似组（即聚类），同一聚类的个案彼此相同，不同聚类中的个案彼此不同。常见的聚类方法有K均值聚类法、系统聚类法（也叫层次聚类法）等。简而言之，聚类分析根据样本的多个属性，将相似的对象聚为一类，使同类之间尽量同质、不同类之间尽量异质。在聚类分析中，一般的规则是将“距离”较小的点归为同一类，将“距离”较大的点归为不同的类。常见的是对个体分类，也可以对变量分类，但对于变量分类此时一般使用相似系数作为“距离”测量指标。

本文将以SPSS Modeler帮助客户分析物流发货明细数据，介绍如何使用SPSS Modeler对物流发货明细数据进行聚类分析和关联规则挖掘，并分析得出有益的结论和建议，为企业的物流运营和发展提供参考与支持。

数据的预处理

本研究的数据是一组关于物流的发货明细，数据包括以下字段：项目、指令日期、始发省、始发市、目的省、目的市、收货人单位、品名、数量、签收时间、签收数量、拒收数量和拒收原因。

对数据进行预处理：

（1）补充缺失值。对没有记录的数据缺失采用平均值法，以该字段的平均分数填充。

（2）规范化数据。运用最小-最大规范化方法对数据进行规范化处理，将数据映射到[0,1]区间，计算公式如下。

可下载资源

完整程序、数据和文档（word）

本文分析的数据分享至会员群

加入会员群

最受欢迎的见解

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言基于温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.R语言KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化

8.PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

9.R语言基于Keras的小数据集深度学习图像分类

视频

KMEANS均值聚类和层次聚类：R语言分析生活幸福质量系数可视化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

其中：ymax为该字段的最大值；

ymin为该字段的最小值。

过程及结果分析

（1）读取数据

选择SPSS Modeler的Source-Excel-Data，在Data选项页中通过Import Files输入框选定Excel格式的成绩表文件，并点击Read Values 按钮，将所有数据读入，如图所示。

（2）K-Means 模型设置

选择SPSS Modeler的Modeling-K-means，将K-Means模型节点添加进数据流来，双击K-Means图标，在弹出的对话框中选择Model选项页，选项页中的参数解释如下：

1）Numbers of cluster：制定生成的聚类数目，这里设置为3.

2）Use Partitioned Data：如果用户定义了分割数据集，选择训练数据集作为建模数据集，并利用测试数据集对模型进行评价。

继续选择对话框中的Expert选项页，如图5所示，对该选项页中的参数做一下设置：

Model选项：选择Expert模式，表示将进行高级模式的选择。

Stop on选项：选择custom选项修改迭代终止的条件：

1）Maximum iterations（最大迭代数）：该选项允许在迭代制定次数后终止训练，这里设置为20.

2）Change tolerance（差异容忍度）：该选项允许在一次迭代中质心之间的最大差异小于制定水平时终止训练。

Spss用K均值聚类Kmeans、决策树、逻辑回归和T检验研究不同因素对通勤出行交通方式选择的影响调查数据分析

阅读文章 ➜

（3）执行和输出

设置完成后，选中Execute 按钮，即可得到执行并观察到结果。点击VIEW选项卡，可以以图表的形式来显示模型的统计信息以及各个属性在各簇中的分布信息。

随时关注您喜欢的主题

（4）聚类结果

结果表明：簇1和2中的签收数量较低，簇5中的签收数量一般，簇4中的签收数量最低，可见，大部分样本的签收数量处于中等水平；

各变量在各簇中的显著程度均较大，表明不同聚类簇的签收数量的分化程度较高，差异显著。

簇1

簇2

簇3

簇4

簇5

从每个聚类簇的情况来看，签收数量最多的是第5个簇，该簇中的最多的始发地是广东深圳，签收数量达到了2833件，其次是上海，签收数量达到了1287。同时从结果可以看到四川成都的签收数量最低，说明物流的集中地集中在广东深圳上海等地。

关联规则挖掘

本文分别用Apriori算法对数据进行处理挖掘，具体结果如下所示。

（1）Apriori算法

虽然 Apriori 算法可以直接挖掘生成表中的交易数据集，但是为了关联挖掘其他算法的需要先把交易数据集转换成分析数据集，构建的数据流如图所示。

图 1 商品关联规则 Apriori 算法挖掘流图

通过格式转换，发现数据源中共有二十种商品，设最低条件支持度为15%，最小规则置信度为30%，最大前项数为5，选择专家模式，挖掘出大类商品的15条关联规则，如图所示。生成的38条规则如下所示：

分析及建议: 通过图可以清晰的看到深圳、广东、北京的物流订单比较多，建议物流企业可以加大对这些地区的工作人员安排，由上述结果可知，发往北京和发往广东深圳的物流运单分别占总运单数的51.515%，41.414%，由此可见，北京山东深圳三个目的地的关联度较高，可以将这些地点的仓库摆放在一块，从而增加效率。同时可以看到发往北京的物品中出现了较多的三星 SM-W2016商品。因此，可以将这些商品交由专人来负责来提高效率。

最后我们得到了以下结果和文件：