本文着眼普通高等学校在校学生人数,提出了不同种类学校的在校人数可能存在的影响关系从而探究教育现状的因素,建立分类模型,探求这几个因素间的数量关系。

由Kaizong Ye，Coin Ge撰写

本文试图帮助客户通过研究不同种类学校的在校人数的关系，从而挖掘出学校在校人数对技校在校人数是否有影响。

问题分析

本次选取来自广东省统计年鉴1978年以来的各级各类学校在校学生数数据。

可下载资源

完整程序、数据和文档（word）

本文分析的数据和报告分享至会员群

加入会员群

作者

Weilong Zhang
✉ 联系我们

× 数据挖掘主要包括以下几个方面： · 分类（Classification） · 估计（Estimation） · 预测（Prediction） · 相关性分组或关联规则（Affinity grouping or association rules） · 聚类（Clustering） · 复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等) 其中对于分类算法，首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。

并对高等学校、中等职业教育学校、技工学校、普通中学、小学的人数进行贝叶斯分类分析，试图通过分类分析得到不同学校类型在校人数之间存在的关系，从而得出结论，提出建议。

WEKA 使用流程

WEKA使学习应用机器学习方便，高效和乐趣。这是一个GUI工具，它允许您加载数据集，运行算法设计及运行试验与统计结果。

1. 进入软件

启动Weka的。这可能涉及发现它在程序启动或双击该文件weka.jar。这将启动GUI的Weka选配。

Weka的GUI选择器可以让你选择资源管理器中，实验者，KnowledgeExplorer和简单CLI（命令行界面）中的一个。

视频

R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

自适应网页宽度的 Youku 视频

视频

R语言中RStan贝叶斯层次模型分析示例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

贝叶斯推断线性回归与R语言预测工人工资数据

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

2. 加载数据

该GUI让您加载数据集，运行分类算法。它还提供了其他的功能，如数据过滤，聚类，关联规则提取和可视化，但现在我们不会使用这些功能的。

点击“打开文件…”按钮，打开“数据”目录中的数据集并双击。

WEKA提供了一些常见的小机器学习数据集，你可以用它来练习上。

3. 进行挖掘

现在你已经加载的数据集，它的时间来选择一个机器学习算法建模的问题，并作出预测。

点击“分类”标签。这是用于运行针对Weka的一个装载数据集的算法的区域。

点击“开始”按钮，运行该算法。

数据预处理

本次分析的数据来自广东省统计年鉴的各级各类学校在校学生数数据。《广东统计年鉴》(下简称《年鉴》)系统收录了全省及各市、县(区)在校人数的统计数据,以及1978年以来各个主要时期全省一共221条主要统计数据。

指标选取

本次分析一共选取了5个指标221个样本，分别是：高等学校、中等职业教育学校、技工学校、普通中学、小学。

贝叶斯网络

贝叶斯网络是一种概率网络，它是基于概率推理的图形化网络，而贝叶斯公式则是这个概率网络的基础。

想了解更多关于模型定制、咨询辅导的信息？

✉

联系我们

由乘法公式，我们得到

P (A | B) = P (A, B) / P (B)=(P(B|A)P(A))/P(B)

这就是著名的贝叶斯公式。

贝叶斯公式几乎是所有概率推理的现代人工智能系统的基础。这个式子同样表示一组公式，每个公式处理变量的特定取值。我们还有某些场合要在某个背景证据e上使用一个更通用版本的条件化公式：

贝叶斯法则是在一个条件概率和2个无条件概率的基础上计算另一个条件概率。

贝叶斯法则对于回答在某一条证据的条件约束下的概率问题是非常有用的，而且我们已经讨论过概率信息经常是以P（结果 | 原因）的形式出现的。

为了解决以上问题，我们利用‘独立性’。

给定第三个随机变量Z（证据）之后，两个随机变量X和Y的条件独立性的一般定义是：

P(X,Y|Z)=P(X|Z)P(Y|Z)

也可以用以下形式来表示

P(X|Y,Z)=P(X|Z)

P(Y|X,Z)＝P(Y|Z)

最受欢迎的见解

1.MATLAB贝叶斯估计MCMC分析药物对不同种群生物生理指标数据评估可视化

3.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

4.R语言NIMBLE、Stan和INLA贝叶斯平滑及条件空间模型死亡率

5.R语言使用RJAGS R2JAGS建立贝叶斯模型

6.R语言贝叶斯线性回归和多元线性回归构建工资预测模型

7.R语言使用贝叶斯层次模型进行空间数据分析

8.R语言中贝叶斯网络（BN）、动态贝叶斯网络、线性模型分析错颌畸形数据

9.Python贝叶斯金融数据应用实例合集

因此对于前面讲过的决对独立断言，允许将全联合分布分解成很多更小的分布，对于条件独立性断言也是同样成立的。

通过条件独立性，将一个大的概率领域分解城一些相互联系非常弱的子集，并允许概率系统进行规模扩展，而且条件独立性也比决对独立性断言更加普遍，称为素贝叶斯模型。

数据准备：

首先在weka中打开数据

WEKA用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归信贷违约预测报告

阅读文章 ➜

随时关注您喜欢的主题

查看每个学校的人数分布直方图

数据预处理：

为了消除数据量纲的变化，数据标准化

然后将数据进行离散化，分成几个不同等级

贝叶斯模型训练:

建立贝叶斯模型，训练模型：

将技工学校的人数作为预测变量

实验结果

十折交叉验证

方法的比较

为了进行对比分析，本文选用准确率(Precision)、召回率(Recall)和覆盖率(Coverage)度量。

推荐结果的召回率定义为：

推荐结果的准确率定义为：

覆盖率(Coverage)描述的是一个推荐系统对物品长尾的发掘能力。推荐系统的覆盖率可以通过下面的公式计算：

得到每个类别的准确率召回率 roc等结果：

混淆矩阵

对模型进行优化

每个类别的准确度和召回率等信息

混淆矩阵

对分类结果进行可视化

从散点图来看，可以看到不同颜色代表不同技工学校的人数分类。纵轴代表预测人数，横轴代表实际人数。由于预测人数分布在y=x的直线上，因此可以认为预测人数等于实际人数，说明模型的预测效果良好。

由上图的比较可以看到，本文使用核函数进行改进后的方法的统计指标均明显优于各个子预测方法，准确度分别提高了 34%，召回率将对于之前算法提高为36% ，总体来说有明显的提高。

结论

从模型的结果来看，不同种类的学校的在校人数之间存在一定的联系。通过贝叶斯网络模型可以利用年份小学，初中等在校人数来预测技校的在校人数的数量，因此长远来看，我们可以通过不同学校的在校人数来预测未来人数的发展趋势。同时说明小学、初中的在校人数会影响技工学校的在校人数，同时技工学校人数和大学在校人数也有关系。高中毕业之后有些人会选择去技工学校学习专业技能，有些人会选择去高校深造，他们之间存在负相关关系，同时良好的初中小学的教育也会影响本科在校人数，因此对学生的义务教育也是相当重要的。

同时，在未来的研究中，还要结合办学条件、教学质量、学校内部结构等方面的因素来对学校的因素进行更深程度的研究。

每日分享最新报告和数据资料至会员群

加入会员群

关于会员群

本会员社群以垂直产业数据研究、深度行业报告分享、AI数据工具实操交流为核心定位；
入群即可解锁全行业数据内容免费阅读与下载权限，同步更新海内外一手优质研究报告文档与产业数据；
会员老用户享受专属 9 折续费优惠，可长期锁定社群全部权益；
为会员提供一对一免费 PDF 报告专属代找服务。

非常感谢您阅读本文，如需帮助请联系我们！

WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型

问题分析

数据预处理

指标选取

想了解更多关于模型定制、咨询辅导的信息？

WEKA用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归信贷违约预测报告

随时关注您喜欢的主题

然后将数据进行离散化，分成几个不同等级

贝叶斯模型训练:

实验结果

对模型进行优化

混淆矩阵

结论

相关文章

WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型

问题分析

数据 预处理

指标选取

想了解更多关于模型定制、咨询辅导的信息？

WEKA用决策树、随机森林、支持向量机SVM、朴素贝叶斯、逻辑回归信贷违约预测报告

随时关注您喜欢的主题

然后将数据进行离散化 ，分成几个不同等级

贝叶斯模型训练:

实验结果

对模型进行优化

混淆矩阵

结论

相关文章

关注我们，永远不要错过任何见解。

数据预处理

然后将数据进行离散化，分成几个不同等级