校园的温情关怀是智慧校园的一项重要内容。

通过大数据与数据挖掘技术对学生日常校园内的消费信息进行快速筛选和比对，建立大数据模型，对校园内需要帮助的同学进行精准识别，为高校温情关怀提供有效的数据依据。

由Wenyi Shen撰写

模型假设与问题分析

× RankGauss 是一种变量处理方法，类似归一化（MinMax）和标准化（Standardization）的作用，都是为了让模型更好的拟合数据。总的来说，RankGauss 是一个不错的转换数据的方法。在使用神经网络模型时，我们可以对比 RankGauss，标准化，归一化的效果。 RankGauss 的优势是将数据转换为了高斯分布，但是代价是只保留了数据的排序信息。

模型假设

三点假设:

没有同学使用自己的账户为他人垫付，每一笔消费均为本人所为。
在全部数据的60天内，认为消费总次数小于80次的为经常点外卖的人，剔除他们，不认为属于低消费人群。
不存在收费错误的情况。

数据清洗

剔除时间异常值

数据共计260多万条条，从20年9月1日6时一直持续到20年10月30日19时。但其中有“9月31日”的数据，我们将其删除。

Wenyi Shen

✉

联系我们

最受欢迎的见解

1.PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法：决策树，随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习：在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习：推荐系统实现（以矩阵分解来协同过滤）

9.python中用pytorch机器学习分类预测银行客户流失

视频

支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

为了减少计算量，我们从200万条数据里随机选取20000条进行训练，最终获得两个聚类簇，以及各个簇的最大最小值。考虑到数据选取的随机性，本文将消费金额80作为异常值阈值，删除所有消费金额大于80的数据，保留下约98%的正常数据。

我们观察消费价格后发现，有少部分消费金额数据在1000甚至10000以上，这部分数据是异常数据，我们采用密度聚类(DBSCAN)算法来寻找一个阈值进行划分。

窗口与价位分类

窗口分类

对数据进行了Z-score标准化，以消除数据中的量纲差异，使得每个特征在模型中的影响程度相等。

R语言惩罚逻辑回归、线性判别分析LDA、广义加性模型GAM、多元自适应回归样条MARS、KNN、二次判别分析QDA、决策树、随机森林、支持向量机SVM分类优质劣质葡萄酒十折交叉验证和ROC可视化

阅读文章 ➜

绘制出标准化后的数据的SSE(Sum of Squared Errors）随分类个数变化的肘形图如下图所示:

随时关注您喜欢的主题

使用簇为4的k-means聚类算法对标准化后的数据进行聚类，并得到各个分类中心的经过标准化后的均值和标准差及每个数据的所属的簇（即标签）

将标准化后的数据还原，并画出平均消费价格和消费价格的方差与分类标签的关系图，如下图所示:

价位分类

最终的聚类效果如下。根据每个簇的最大最小值，将消费分为低、中、高三个价位，分别界定为小于10.37元，10.37元到24.67元和大于24.67元。

低消费指数模型

我们选取下面7个自变量参与模型训练:夜宵次数，午饭金额，晚饭金额，下午茶金额，夜宵金额，中消费频率，高消费频率。然后，用户的消费分类cluster变量将作为y标签。

我们以70%的数据做训练集，30%做测试集，建立SVM(支持向量机)分类模型，输出测试数据的准确率、精确率、召回率和F1值，以及混淆矩阵热力图，效果如下所示:

训练SVM模型后，我们获得了权重和偏置项，如下表所示，后面计算概率矩阵时会用到这些参数。

低消费指数模型

简单的说，RankGauss首先将该特征按照大小排序，计算出每个值的排名（排名从1开始);然后将排名除以n+1，其中n是该特征的样本数量，得到一个0到1之间的比例因子;最后将比例因子作为标准正态分布的累积分布函数(CDF）的输入，得到转换后的数据，如下表所示。

通过RankGauss标准化，可以看到，原本极小的数据也能转化到10个(-3)数量级及以上，在保留了模型可解释性和科学性的同时规范化了数据，便于数据参与二次运算。相较于其他标准化算法，只有RankGauss能做到将任意分布的数据映射到高斯分布，并且保留原始特征的顺序关系，同时规范减小数据的数量级差异。