关联规则挖掘作为数据挖掘的一个重要分支,对于发现数据之间的潜在关联和规律具有重要意义。
在教育领域,学生就业数据是一类重要的数据资源,通过关联规则挖掘可以揭示学生就业相关的规律和影响因素。
本文旨在探讨WEKA关联规则挖掘Apriori算法在学生就业数据中的应用,以期为提高学生就业率和优化学生培养方案提供参考。本文首先介绍了关联规则挖掘的基本概念和方法,包括Apriori算法的原理、优势和适用场景。首先,我们需要了解关联规则挖掘的基本概念和方法。关联规则挖掘是一种在大规模数据集中寻找项之间有趣关系的方法。这种技术的主要目的是发现数据中的模式或规则,这些规则可以描述一个项集的出现如何影响另一个项集的出现。在零售业、电子商务和市场营销等领域,关联规则挖掘已经被广泛应用,用于发现商品之间的关联关系,从而制定更有效的销售策略。
Apriori算法是关联规则挖掘中最经典的算法之一。该算法基于两个重要的原理:一是如果一个项集是频繁的,那么它的所有子集也一定是频繁的;二是如果一个项集不是频繁的,那么它的所有超集也一定不是频繁的。这两个原理大大减少了算法在搜索频繁项集时的计算量,提高了算法的效率。
接着,本文详细阐述了WEKA数据挖掘软件的功能和特点,以及如何利用WEKA实现Apriori算法在学生就业数据中的具体应用。
通过实验和分析,本文发现Apriori算法可以有效地发现学生就业数据中的关联规则,揭示学生就业相关的规律和影响因素。
本文的研究成果不仅有助于提高学生就业率和优化学生培养方案,还可以为教育管理部门提供科学依据和决策支持。同时,本文的研究方法也可以为其他领域的数据挖掘应用提供参考和借鉴。
Weka
Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。
数据
数据使用的是学生数据 。
部分数据如下图所示:
数据建模
数据预处理
指标选取
本次分析一共选取了13个指标427个样本,分别是:
毕业年份
性别
生源所在地
政治面貌
民族
实习经历
平均成绩
平均学分绩
加权学分成绩
名次
毕业去向
就业形式
单位所在地。
数据审核
由上表,可得:本次分析的数据都是有效的,不存在缺失值。
描述性统计量
随时关注您喜欢的主题
由上表,可得各个变量的均值、中值、最大值和最小值。
可以看出这8个连续性变量不存在量纲上的差异,因此在后面的分析中,不需要进行标准化处理。
数据预处理:
在进行关联规则挖掘之前,首先对属性进行离散化处理,将数值型变量转化成分类变量。
模型的实际应用
研究数据说明
本文分别用Apriori算法对数据进行处理挖掘,具体结果如下所示。
(1)Apriori算法
虽然 Apriori 算法可以直接挖掘生成表中的交易数据集,但是为了关联挖掘其他算法的需要先把交易数据集转换成分析数据集,构建的算法设置图如图 1 所示。
参数设置
通过格式转换, 设最低条件支持度为15%,最小规则置信度为30%,最大前项数为5,选择专家模式,挖掘出最有价值的10条关联规则,如图 2 所示。生成的10条规则如下所示:
分析及建议: 通过图可以清晰的看到有实习经历的汉族学生有较大的概率获得就业协议。说明实习经历是影响学生是否就业的重要因素。同时,可以看到签订就业协议的学生大多数的毕业去向是派遣。 从政治面貌来看,为共青团员的学生具有更大的概率能签订就业协议。从性别来看,大部分强关联规则中出现的性别为男,因此,男性有更大的概率去签订就业协议。
结论
利用WEKA软件,通过分析频繁项集及关联规则生成的过程,采用Apriori算法对数据分别进行了解析挖掘,针对挖掘结果提出了相应的建议,对学生的就业准备和就业策略有着一定的现实的意义。
每日分享最新报告和数据资料至会员群
关于会员群
- 会员群主要以数据研究、报告分享、数据工具讨论为主;
- 加入后免费阅读、下载相关数据内容,并同步海内外优质数据文档;
- 老用户可九折续费。
- 提供报告PDF代找服务
非常感谢您阅读本文,如需帮助请联系我们!