最近，在贝叶斯统计实验中，我们向客户演示了用R的朴素贝叶斯分类器可以提供的内容。

由Kaizong Ye，Liao Bao撰写

这个实用的例子介绍了使用R统计环境的朴素贝叶斯模型。它不假设先验知识。

我们的步骤是：

1.启动R

2.探索Iris鸢尾花数据集

3.构造朴素贝叶斯分类器

4.理解朴素贝叶斯

探索Iris数据集

× 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）。和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。朴素贝叶斯算法（Naive Bayesian algorithm) 是应用最为广泛的分类算法之一。朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化，即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重，也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果，但是在实际的应用场景中，极大地简化了贝叶斯方法的复杂性。

在这个实践中，我们将探索经典的“Iris”数据集。

探索Iris数据集

在这个实践中，我们将探索经典的“Iris”数据集。

Iris数据集有150个数据点和5个变量。每一个数据点包含一个特定的花，并给出4种花的测量值。

任务是用花的特征与物种一起构建一个分类器，从4种对花的观测量中预测花的品种。

要将Iris数据集放到您的R会话中，请执行以下操作：

data(iris)

查看数据

可下载资源

完整程序、数据和文档（word）

最受欢迎的见解

1.matlab使用贝叶斯优化的深度学习

2.matlab贝叶斯隐马尔可夫hmm模型实现

3.R语言Gibbs抽样的贝叶斯简单线性回归仿真

4.R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

5.R语言中的Stan概率编程MCMC采样的贝叶斯模型

6.R语言贝叶斯Poisson泊松-正态分布模型分析职业足球比赛进球数

7.R语言使用贝叶斯层次模型进行空间数据分析

8.R语言随机搜索变量选择SSVS估计贝叶斯向量自回归（BVAR）模型

9.matlab贝叶斯隐马尔可夫hmm模型实现

pairs(iris[1:4],main="

视频

贝叶斯推断线性回归与R语言预测工人工资数据

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

R语言中RStan贝叶斯层次模型分析示例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

命令创建了一个散点图。类决定数据点的颜色。从中可以看出，setosa花的花瓣比其他两种都要小。

提供数据摘要

summary(iris)

构造朴素贝叶斯分类器

我们构建一个朴素的贝叶斯分类器。

(1)加载到您的工作区

(2)构建朴素的Bayes分类器，

(3)对数据进行一些预测，请执行以下操作：

library(e1071)  
classifier<-naiveBayes(iris[,1:4], iris[,5])  
table(predict(classifier, iris[,-5]), iris[,5], dnn=list('predicted','actual'))

R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资

阅读文章 ➜

正如你应该看到的那样，分类器在分类方面做得很好。为什么这并不奇怪？

随时关注您喜欢的主题

这给出了数据中的类分布：类的先验分布。(“先验”是拉丁语，表示“从前开始”)。

由于这里的预测变量都是连续的，朴素贝叶斯分类器为每个预测变量生成三个Giaussian(正态分布)分布：一个用于类变量的每个值。

您将看到3个依赖于类的高斯分布的平均(第一列)和标准偏差(第二列)：

绘制成图：

plot(function(x) dnorm, 0, 8, col=2, main="3种不同物种的花瓣长度分布")
curve(

值得注意的是，setosa irises(蓝色曲线)花瓣较小(平均值=1.462)，花瓣长度变化较小(唐氏偏差仅为0.1736640)。

理解朴素贝叶斯

在这个问题中，您必须计算出对于一些离散数据，朴素贝叶斯模型的参数应该是什么。

该数据集被称为HairEyeColor，有三个变量：性别、眼睛和头发，给出了某大学592名学生的这3个变量的值。首先看一下数字：

您还可以将其绘制为“马赛克”图，它使用矩形来表示数据中的数字：

你在这里的工作是为一个朴素的贝叶斯分类器计算参数，它试图从另外两个变量中预测性别。参数应该使用最大的可能性来估计。为了节省手工计算的繁琐时间，下面是如何使用Edge.table来获取所需的计数

naiveBayes(Sex ~

预测

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言朴素贝叶斯Naive Bayes分类Iris鸢尾花和HairEyeColor学生性别和眼睛头发颜色数据

探索Iris数据集

构造朴素贝叶斯分类器

R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资

随时关注您喜欢的主题

值得注意的是，setosa irises(蓝色曲线)花瓣较小(平均值=1.462)，花瓣长度变化较小(唐氏偏差仅为0.1736640)。

理解朴素贝叶斯

您还可以将其绘制为“马赛克”图，它使用矩形来表示数据中的数字：

预测

相关文章

R语言朴素贝叶斯Naive Bayes分类Iris鸢尾花和HairEyeColor学生性别和眼睛头发颜色数据

探索Iris数据集

构造朴素贝叶斯分类器

R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资

随时关注您喜欢的主题

值得注意的是，setosa irises(蓝色曲线)花瓣较小(平均值=1.462)，花瓣长度变化较小(唐氏偏差仅为0.1736640)。

理解朴素贝叶斯

您还可以将其绘制为“马赛克”图，它使用矩形来表示数据中的数字：

预测

相关文章

关注有关新文章的微信公众号