Iris鸢尾花数据集，内容摘自百度百科：Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。

由Kaizong Ye，Liao Bao撰写

首先介绍一下“Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。

可下载资源

完整程序、数据和文档（word）

可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类”。

Seaborn是一个独立的数据可视化包，可在单个包中提供许多极具价值的数据可视化。

特点：

a.多个颜色主题。

b.可视化单变量、二维变量，用于比较数据集中各变量的分布情况。

c.可视化线性回归模型中的变量。

d.可视化矩阵数据，通过聚类算法探究矩阵间的结构。

e.可视化时间序列数据及不确定性

f.可在分割区域制图，用于复杂的可视化

使用：`import seaborn as sns`

单变量分布

核密度估计图 : sns.kdeplot(data)

核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数。
通过核密度估计图可以比较直观的看出数据样本本身的分布特征。

distribution plot : displot(kde=True, hist=True, rug=False)

集合了直方图与核函数估计的功能。
只显示直方图 : kde = False
只显示核密度估计 : hist = False
显示观察条 : rug = True

双变量分布

joinplot : sns.joinplot(x, y, data, kind)

x, y 二维数据，向量或字符串。
data, 如果x, y是字符串，data应该为DataFrame。
kind = 'scatter' 默认，二维散点图
kind = 'hex', 二维直方图
kind = 'kde', 二维核密度估计图

变量关系可视化

sns.pairplot(data，hue，vars，kind，dia_kind)

data：DataFrame数据集中作为类别的别名
hue：数据集中作为类别的列名
vars：可视化的列（默认可视化所有列间的关系）
kind：scatter散点，reg添加拟合线。
diag_kind：对角线的图像，hist直方图，kde核密度估计图。

类别数据可视化

参数：x, y, data, hue

1.类别散布图

分布散点图：sns.striplot()

分簇散点图：sns.swarmplot()

2.类别内数据分布

sns.boxplot()盒子图

四分位距：IQR=Q3-Q1
最大值：Q3+1.5*IQR，最小值：Q1-1.5*IQR

sns.violinplot()小提琴图

3.类别内统计图

柱状图：sns.barplot()

点图：sns.pointplot()

导入库

读取数据

数据字段介绍：

sepal_length:花萼长度，单位cm
sepal_width:花萼宽度，单位cm
petal_length:花瓣长度，单位cm
petal_width:花瓣宽度，单位cm
种类:setosa(山鸢尾)，versicolor(杂色鸢尾)，virginica(弗吉尼亚鸢尾)

在做categorical visualization的时候，seaborn给出了基础的stripplot & swarmplot, boxplot & violinplot, barplot & pointplot,以及抽象化的factorplot.下面就用纸鸢花数据集做一下讲解。

StripplotStripplot的本质就是把数据集中具有quantitative属性的变量按照类别去做散点图(Scatterplot)。

课程

R语言数据分析挖掘必知必会

从数据获取和清理开始，有目的的进行探索性分析与可视化。让数据从生涩的资料，摇身成为有温度的故事。

立即参加 ➜

我们将纸鸢花数据集中不同种类花的sepal length做stripplot可视化

plt.show()

上边左侧的图片便是在默认风格下用stripplot绘制的散点图。在很多情况下，stripplot中的点会重叠，使得我们不容易看出点的分布情况。一个简单的解决办法就是用在stripplot的基础上绘制抖动图(jitterplot)，仅沿着类别坐标轴的方向去随机微调整点的位置，显示出分布情况。

Swarmplot另一个解决stripplot中点重叠的办法就是绘制swarmplot,它的本质就是用通过算法，在类别坐标轴的方向上去‘延展’绘制这些原本重合的点。我们将纸鸢花数据集中不同种类花的petal length和petal width做swarmplot可视化。

plt.subplot(1,2,1)

sns.swarmplot(x='Species',y='Petal.Length',data=iris)

plt.show()

Boxplot箱形图，主要包含六个数据节点，将一组数据从大到小排列，分别计算出上边缘，上四分位数Q3，中位数，下四分位数Q1，下边缘，还有异常值。下面将纸鸢花数据集中的四个变量sepal_length, sepal_width, petal_length和petal_width做箱形图可视化。

fig = plt.figure(1,figsize=(12,12))
plt.show()

最受欢迎的见解

1.R语言动态图可视化：如何、创建具有精美动画的图

2.R语言生存分析可视化分析

3.Python数据可视化-seaborn Iris鸢尾花数据

4.r语言对布丰投针（蒲丰投针）实验进行模拟和动态

5.R语言生存分析数据分析可视化案例

6.r语言数据可视化分析案例：探索brfss数据数据分析

7.R语言动态可视化：制作历史全球平均温度的累积动态折线图动画gif视频图

8.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告

9.python主题LDA建模和t-SNE可视化

ViolinplotViolinplot相当于结合了箱形图与核密度图，更好地展现出数据的量化形态。展示如下：

plt.figure(1,figsize=(12,12))
for i in range(4):
plt.show()

Violinplot用kernel density estimate去更好地描述了quantitative变量的分布。

与此同时，也可以组合swarmplot和boxplot或violinplot去描述quantitative变量。用鸢尾花数据集展示如下：

In [8]:
plt.figure(1,figsize=(12,12))
plt.title(str(var[i])+ ' in Iris species')
plt.show()

BarplotBarplot主要是展现在分类中的quantitative变量的平均值情况，并且用了boostrapping算法计算了估计值的置信区间和error bar.用鸢尾花数据集展示如下：

plt.show()

Countplot如果想知道在每个类别下面有多少个观察值，用countplot就可以，相当于是做一个observation counts，用鸢尾花数据集展示如下：

plt.show()

PointplotPointplot相当于是对barplot做了一个横向延伸，一方面，用point estimate和confidence level去展示barplot的内容；另一方面，当每一个主类别下面有更细分的sub-category的时候，pointplot可以便于观察不同sub-category在各主类别之间的联系。展示如下：

plt.show()

FactorplotFactorplot可以说是seaborn做category visualization的精髓，前面讲的这些plot都可以说是factorplot的具体展示。我们可以用PariGrid去实现对多个类别的数值特征用同一种plot做可视化。

g.map(sns.violinplot,palette='pastel')
plt.show()

附上各plot function的API，今后将会对API中的参数结合tutorial讲讲，如何做出更好的可视化效果。更新ing

seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,

小结

seaborn是一个很棒的可视化库，尤其是当数据维度很大的时候，seaborn可以让我们用最少的代码去绘制一些描述性统计的图，便于找寻各维度变量之间的特征。此篇文档也是我对seaborn的学习笔记，这次整理的内容是关于category visualization。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

Python数据可视化-seaborn Iris鸢尾花数据

导入库

读取数据

小结

相关文章