R语言聚类有效性:确定最优聚类数分析IRIS鸢尾花数据和可视化

这个数据集常用于数据概述、可视化和聚类模型。

由Kaizong Ye,Sherry Deng撰写

它包括三个鸢尾花品种,每个品种有50个样本,以及一些属性。

数据集概述

其中一个花种与其他两个花种是线性可分离的,但其他两个花种之间不是线性可分离的。

这个数据集的给定列是:

i> Id
ii> 萼片长度(Cm)
iii>萼片宽度(Cm)
iv> 花瓣长度(Cm)
v> 花瓣宽度 (Cm)
vi> 品种

让我们把这个数据集可视化,并用kmeans进行聚类。

基本可视化

IRIS数据,聚类前的基本可视化

火山图

聚类数据 :: 方法-1

聚类数据 :: 方法-2

使用聚类有效性测量指标


R语言确定聚类的最佳簇数:3种聚类优化方法

阅读文章


休伯特指数

休伯特指数是一种确定聚类数量的图形方法。
在休伯特指数图中,我们寻找一个明显的拐点,对应于测量值的明显增加,即休伯特指数第二差值图中的明显峰值。

D指数

在D指数的图表中,我们寻找一个重要的拐点(D指数第二差值图中的重要峰值),对应于测量值的显著增加。


随时关注您喜欢的主题


画一个直方图,表示各种指数对聚类数量的投票情况。

在26个指数中,大多数(10个)投票给2个聚类,8个投票给3个聚类,其余8个(26-10-8)投票给其他数量的聚类。
直方图,断点=15,因为我们的算法是检查2到15个聚类的。

聚类数据 :: 方法-3

卡林斯基指标类似于寻找群组间方差/群组内方差的比率。

用Silhoutte图对数据进行聚类 :: 方法-4

先试着2个类

试用8个聚类

计算iris和随机数据集的霍普金统计值

分析聚类趋势


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498