关联规则挖掘作为数据挖掘的一个重要分支，对于发现数据之间的潜在关联和规律具有重要意义。

由Kaizong Ye，Weilong Zhang撰写

在教育领域，学生就业数据是一类重要的数据资源，通过关联规则挖掘可以揭示学生就业相关的规律和影响因素。

本文旨在探讨WEKA关联规则挖掘Apriori算法在学生就业数据中的应用，以期为提高学生就业率和优化学生培养方案提供参考。本文首先介绍了关联规则挖掘的基本概念和方法，包括Apriori算法的原理、优势和适用场景。首先，我们需要了解关联规则挖掘的基本概念和方法。关联规则挖掘是一种在大规模数据集中寻找项之间有趣关系的方法。这种技术的主要目的是发现数据中的模式或规则，这些规则可以描述一个项集的出现如何影响另一个项集的出现。在零售业、电子商务和市场营销等领域，关联规则挖掘已经被广泛应用，用于发现商品之间的关联关系，从而制定更有效的销售策略。

Apriori算法是关联规则挖掘中最经典的算法之一。该算法基于两个重要的原理：一是如果一个项集是频繁的，那么它的所有子集也一定是频繁的；二是如果一个项集不是频繁的，那么它的所有超集也一定不是频繁的。这两个原理大大减少了算法在搜索频繁项集时的计算量，提高了算法的效率。

可下载资源

完整程序、数据和文档（word）

本文分析的数据和报告分享至会员群

加入会员群

作者

Kaizong Ye
✉ 联系我们

× “Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。算法简介 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。算法思想 ”。

接着，本文详细阐述了WEKA数据挖掘软件的功能和特点，以及如何利用WEKA实现Apriori算法在学生就业数据中的具体应用。

通过实验和分析，本文发现Apriori算法可以有效地发现学生就业数据中的关联规则，揭示学生就业相关的规律和影响因素。

本文的研究成果不仅有助于提高学生就业率和优化学生培养方案，还可以为教育管理部门提供科学依据和决策支持。同时，本文的研究方法也可以为其他领域的数据挖掘应用提供参考和借鉴。

视频

关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

Weka

Weka是怀卡托智能分析系统的缩写，该系统由新西兰怀卡托大学开发。Weka使用Java写成的，并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台，是一款免费的，非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面，可结合预处理以及后处理方法，将许多不同的学习算法应用于任何所给的数据集，并评估由不同的学习方案所得出的结果。

数据

数据使用的是学生数据。

部分数据如下图所示：

数据建模

数据预处理

指标选取

本次分析一共选取了13个指标427个样本，分别是：

毕业年份

性别

生源所在地

政治面貌

民族

实习经历

平均成绩

平均学分绩

加权学分成绩

名次

毕业去向

就业形式

单位所在地。

最受欢迎的见解

1.R语言基于ARMA-GARCH-VaR模型拟合和预测实证研究

2.R语言时变参数VAR随机模型

3.R语言估计时变VAR模型时间序列的实证研究

4.R语言基于ARMA-GARCH过程的VAR拟合和预测

5.GARCH（1,1），MA以及历史模拟法的VaR比较

6.R语言用向量自回归（VAR）进行经济数据脉冲响应

7.R语言实现向量自动回归VAR模型

8.R语言随机搜索变量选择SSVS估计贝叶斯向量自回归（BVAR）模型

9.R语言VAR模型的不同类型的脉冲响应分析

数据审核

数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据

阅读文章 ➜

由上表，可得：本次分析的数据都是有效的，不存在缺失值。

描述性统计量

随时关注您喜欢的主题

由上表，可得各个变量的均值、中值、最大值和最小值。

可以看出这8个连续性变量不存在量纲上的差异，因此在后面的分析中，不需要进行标准化处理。

数据预处理：

在进行关联规则挖掘之前，首先对属性进行离散化处理，将数值型变量转化成分类变量。

模型的实际应用

研究数据说明

本文分别用Apriori算法对数据进行处理挖掘，具体结果如下所示。

（1）Apriori算法

虽然 Apriori 算法可以直接挖掘生成表中的交易数据集，但是为了关联挖掘其他算法的需要先把交易数据集转换成分析数据集，构建的算法设置图如图 1 所示。

参数设置

通过格式转换，设最低条件支持度为15%，最小规则置信度为30%，最大前项数为5，选择专家模式，挖掘出最有价值的10条关联规则，如图 2 所示。生成的10条规则如下所示：

分析及建议: 通过图可以清晰的看到有实习经历的汉族学生有较大的概率获得就业协议。说明实习经历是影响学生是否就业的重要因素。同时，可以看到签订就业协议的学生大多数的毕业去向是派遣。从政治面貌来看，为共青团员的学生具有更大的概率能签订就业协议。从性别来看，大部分强关联规则中出现的性别为男，因此，男性有更大的概率去签订就业协议。