对“NCI60”（癌细胞系微阵列）数据使用聚类方法

目的是找出观察结果是否聚类为不同类型的癌症。

由Kaizong Ye，Weilong Zhang撰写

K_means 和层次聚类的比较。

可下载资源

#数据信息

dim(nata)

优点：

1.是解决聚类问题的一种经典算法，简单、快速

2.对处理大数据集，该算法保持可伸缩性和高效率

3.当结果簇是密集的，它的效果较好

缺点

1.在簇的平均值可被定义的情况下才能使用，可能不适用于某些应用

2.必须事先给出k（要生成的簇的数目），而且对初值敏感，对于不同的初始值，可能会导致不同结果。

3.不适合于发现非凸形状的簇或者大小差别很大的簇

4.对躁声和孤立点数据敏感

  
nci.labs\[1:4\]

 

table(ncibs)

视频

KMEANS均值聚类和层次聚类：R语言分析生活幸福质量系数可视化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

 

ncbs

  
scale # 标准化变量（均值零和标准差一）。

全链接、平均链接和单链接之间的比较。

  
plot(hclust,ylab = "",cex=".5",col="blue") #使用全链接对观察结果进行层次聚类。

  

plot(hclust,cex=".5",col="blue") #使用平均链接对观察进行层次聚类。

  

par(mfrow=c(1,1))
plot(hclust,col="blue") #使用单链接对观察进行层次聚类。

最受欢迎的见解

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言中不同类型的聚类方法比较

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.用于NLP的Python：使用Keras的多标签文本LSTM神经网络

8.R语言对MNIST数据集分析探索手写数字分类数据

9.R语言基于Keras的小数据集深度学习图像分类

观察结果

单链接聚类倾向于产生拖尾的聚类：非常大的聚类，单个观测值一个接一个地附在其中。

R语言KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化分析和选择最优聚类数

阅读文章 ➜

另一方面，全链接和平均链接往往会产生更加平衡和有吸引力的聚类。

由于这个原因，全链接和平均链接比单链接层次聚类更受欢迎。单一癌症类型中的细胞系确实倾向于聚在一起，尽管聚类并不完美。

随时关注您喜欢的主题

 

table(hrs,ncbs)

我们可以看到一个清晰的模式，即所有白血病细胞系都属于聚类 3，其中乳腺癌细胞分布在三个不同的聚类中。

 

plot(hcu)
abline

参数 h=139 在高度 139 处绘制一条水平线。这是 4 个不同聚类的划分结果。

out

 


kout=kmea
table

我们看到，获得层次聚类和 K-means 聚类的四个聚类产生了不同的结果。K-means 聚类中的簇 2 与层次聚类中的簇 3 相同。另一方面，其他集群不同。

结论

层次聚类在 NCI60 数据集中能比 K-means聚类得到更好的聚类。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

对“NCI60”（癌细胞系微阵列）数据使用聚类方法

观察结果

R语言KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化分析和选择最优聚类数

随时关注您喜欢的主题

参数 h=139 在高度 139 处绘制一条水平线。这是 4 个不同聚类的划分结果。

结论

相关文章

R语言K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

对“NCI60”（癌细胞系微阵列）数据使用聚类方法

观察结果

R语言KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化分析和选择最优聚类数

随时关注您喜欢的主题

参数 h=139 在高度 139 处绘制一条水平线。这是 4 个不同聚类的划分结果。

结论

相关文章

关注我们，永远不要错过任何见解。