大量数据中具有”相似”特征的数据点或样本划分为一个类别。

由Kaizong Ye，Weilong Zhang撰写

聚类分析提供了样本集在非监督模式下的类别划分。

人们在投资时总期望以最小的风险获取最大的利益，面对庞大的股票市场和繁杂的股票数据，要想对股票进行合理的分析和选择，聚类分析就显得尤为重要。

可下载资源

在本文中，我们采用了改进K-means聚类法帮助客户对随机选择的个股进行了聚类，并对各类股票进行了分析，给出了相应的投资建议。

× 聚类是数据挖掘领域非常重要的一项技术，它可以发现数据很多潜在的信息和价值。针对股票市场，应用聚类分析模型来进行深入挖掘，可为投资者提供可靠的帮助。文献 [1] 通过运用聚类的方法对股票进行分析评价；文献 [2] 不仅运用聚类的方法对股票进行了分析，还根据聚类所得的数据信息对股票进行了投资分析；文献 [3] 运用K-means聚类单独对ST股票进行了分类研究，给出了相应的投资策略。文献 [4] 针对经典K-means聚类算法过于依赖初始聚类中心和易陷入局部最优的不足，提出一种带有学习能力的人工蜂群算法与K-means迭代相结合的聚类算法，使聚类收敛速度更快，稳定性更强，聚类精度也更高；文献 [5] 分析了聚类模型在股票市场应用过程中的优势与局限性。 [1] 李庆东. 聚类分析在股票分析中的应用[J]. 辽宁石油化工大学学报, 2005, 25(3): 94-96. [2] 李慧. 聚类分析在股票投资分析中的应用[J]. 商, 2015(27): 199. [3] 吴曼琪. 基于K均值聚类的ST股票分类研究及投资策略[J]. 中国城市经济, 2010(8X): 26-26. [4] 洪月华. 蜂群K-means聚类算法改进研究[J]. 科技通报, 2016, 32(4): 170-173. [5] 王强. 聚类分析模型在股票市场的应用[J]. 经济界, 2016(5): 101.

读取数据

股票盈利能力分析数据

视频

KMEANS均值聚类和层次聚类：R语言分析生活幸福质量系数可视化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

data=read.xlsx("股票盈利能力分析.xlsx")

初始聚类中心个数

初始聚类中心数目k的选取是一个较为困难的问题。传统的K-means聚类算法需要用户事先给定聚类数目k，但是用户一般情况下并不知道取什么样的k值对自己最有利、或者说什么样的k值对实际应用才是最合理的，这种情况下给出k值虽然对聚类本身会比较快速、高效，但是对于一些实际问题来说聚类效果却是不佳的。所以，下面我提出一种确定最佳聚类个数k的方法。

算法描述与步骤：

输入：包含n个对象的数据集；

输出：使得取值最小的对应的k值。

（1）根据初步确定簇类个数k的范围；

（2）仍然是用K-means算法对的每一个k值分别进行聚类；

（3）分别计算不同聚类个数k所对应的的值；

（4）找出最小的值，记下对应的k值，算法结束。


S[1]=sum(abs(data[,3:9]-result$centers)^2)/min(abs(data[,3:9]-result$ce
plot(2:6,S,type="b")

初始中心位置的选取

传统的K-means聚类算法中，我们总是希望能将孤立点对聚类效果的影响最小化，但是孤立点实际上在诈骗探测、安全性检测以及设备故障分析等方面起着不凡的作用；然而，本文排除以上这些因素，单纯地考虑聚类效果好坏。那么为了避免将孤立点误选为初始中心，我们选择高密度数据集合区域D中的数据作为聚类初始中心。

最受欢迎的见解

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言基于温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.R语言KMEANS均值聚类和层次聚类：亚洲国家地区生活幸福质量异同可视化

8.PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

9.R语言基于Keras的小数据集深度学习图像分类

基本思想：

传统K-means聚类采用随机选择初始中心的方法一旦选到孤立点，会对聚类结果产生很大的影响，所以我们将初始中心的选择范围放在高密度区。

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

阅读文章 ➜

首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点，再找出与这两个点的距离之和最大的点作为第3个初始中心，有了第3个初始中心，同样找到与已有的三个初始聚类中心距离和最远的点作为第4个初始中心，以此类推，直到在高密度区将k个聚类中心都找出来为止。

随时关注您喜欢的主题

算法描述与步骤：

输入：包含n个对象的数据集，簇类数目k；

输出：k个初始聚类中心。

（1）计算n个数据样本中每个对象x的的密度，当满足核心对象的条件时，将该对象加到高密度区域D中去；

（2）在区域D中计算两两数据样本间的距离，找到间距最大的两个样本点作为初始聚类中心，记为；

（3）再从区域D中找出满足条件：的点，将作为第三个初始聚类中心；

（4）仍然从区域D中找出满足到前面三个聚类中心的距离和最大的点；

（5）按照同样的方法进行下去，直到找到第k个初始聚类中心，结束。



 #首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点，再找出与这两个点的距离之和最大的点作为第3个初始中心，
  
  dd=dist(data)
  dd=as.matrix(dd)
  #高密度区域
  D=which(dd<max(dd)/6 & dd!=0,arr.ind = T)
  D=unique(D[,1])
  dataD=data[D,]
  index=0
  for(i in 1:k){
    
    index[i]=as.numeric(row.names(which (

相似性度量的改进

在前面确定了k值以及k个初始聚类中心后，只要再确定相似性度量即可得到聚类结果。然而传统的K-means聚类采用欧氏距离作为相似性度量，这种方法没有很好地考虑到其实每个数据样本对聚类结果的影响可能是不同的，一律采用欧氏距离进行相似性衡量对聚类结果会产生较大影响。

那么，我们如果根据数据样本的重要性对其赋予一个权值，就会减小孤立点等一些因素对聚类的影响，这种改进的度量方法我们称之为加权欧氏距离。


 ###根据改进后的加权欧氏距离公式
  ##   检验聚类操作是否需要结束，改进后的加权准则函数公式：的值最小或保持不变了
  sqrt(sum((c1$Centers/(sum(c1$Centers)/len

绘制聚类中心和可视化


lot(data[,-c(1:4)], fit$cluste

输出聚类结果和聚类中心


###########################聚类类别###############
fit$Clusters
###########################聚类中心#########################
fit$Centers

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言改进的K-Means(K-均值)聚类算法分析股票盈利能力和可视化

大量数据中具有”相似”特征的数据点或样本划分为一个类别。

读取数据

初始聚类中心个数

算法描述与步骤：

初始中心位置的选取

基本思想：

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

随时关注您喜欢的主题

算法描述与步骤：

相似性度量的改进

那么，我们如果根据数据样本的重要性对其赋予一个权值，就会减小孤立点等一些因素对聚类的影响，这种改进的度量方法我们称之为加权欧氏距离。

绘制聚类中心和可视化

输出聚类结果和聚类中心

相关文章

R语言改进的K-Means(K-均值)聚类算法分析股票盈利能力和可视化

大量数据中具有”相似”特征的数据点或样本划分为一个类别。

读取数据

初始聚类中心个数

算法描述与步骤：

初始中心位置的选取

基本思想：

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

随时关注您喜欢的主题

算法描述与步骤：

相似性度量的改进

那么，我们如果根据数据样本的重要性对其赋予一个权值，就会减小孤立点等一些因素对聚类的影响，这种改进的度量方法我们称之为加权欧氏距离。

绘制聚类中心和可视化

输出聚类结果和聚类中心

相关文章

关注有关新文章的微信公众号