R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析

自组织映射 (SOM)是一种工具,通过生成二维表示来可视化高维数据中的模式,在高维结构中显示有意义的模式。

 

由Kaizong Ye,Liao Bao撰写

通过以下方式使用给定的数据(或数据样本)对SOM进行“训练”:

  • 定义了网格的大小。
  • 网格中的每个单元都在数据空间中分配了一个初始化向量。
    • 例如,如果要创建22维空间的地图,则会为每个网格单元分配一个22维向量。

数据被反复输入到模型中进行训练。每次输入训练向量时,都会执行以下过程:

  • 识别具有最接近训练向量的代表向量的网格单元。
  • 随着训练向量的多次输入,收敛的参数使调整变得越来越小,从而使地图稳定。

该算法赋予SOM的关键特征:数据空间中接近的点在SOM中更接近。因此,SOM可能是表示数据中的空间聚类的好工具。

Kohonen映射类型

下面的示例将使用2015/16 NBA赛季的球员统计数据。我们将查看每36分钟更新一次的球员统计信息。这些数据可从 http://www.basketball-reference.com/获得。我们已经清理了数据。

基本SOM

在创建SOM之前,我们需要选择要在其中搜索模式的变量。


热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程

我们从简单示例开始:

请注意,我们标准化了训练数据,并定义了网格大小。标准SOM图可为网格单元的代表矢量创建这些饼图表示,其中半径对应于特定维度上的大小。

热图SOM

我们可以通过将每个球员分配到具有最接近该球员状态的代表向量来识别地图。“计数”类型的SOM根据球员数量创建了一个热图。

绘图点

您可以使用“映射”类型的SOM将球员绘制为网格上的点。我们与常规SOM进行可视化比较。


R语言鸢尾花iris数据集的层次聚类分析

阅读文章


每个地图单元格的代表性矢量显示在右侧。左侧是根据其状态与这些代表向量的接近程度绘制的球员图表。

环形SOM

下一个示例是一种更改几何形状的方法。在为上述示例训练SOM时,我们使用了矩形网格。由于边缘(尤其是拐角处)的单元比内部单元具有更少的邻居,因此倾向于将更多的极端值推到边缘。

映射距离

当用绘制时 type = "dist.neighbours",单元格将根据与它们最近的邻居的距离着色,这使我们可以直观地看到高维空间中不同要素之间的距离。

有监督SOM

有监督的SOM使我们可以进行分类。到目前为止,我们仅将三维数据映射到二维。当我们处理更高维度的数据时,SOM的实用性变得更加明显,因此让我们使用扩展的球员统计信息列表来做这个受监督的示例:

我们创建有监督的SOM,并根据球员在球场上的位置对其进行分类。我们将数据随机分为训练集和测试集。

请注意,当我们重新标准化测试数据时,我们需要根据训练数据的方式对其进行标准化。

您可以在训练算法中对训练变量(NBA.training)与预测变量(NBA$Pos)进行加权。现在让我们检查预测的准确性:

可视化预测:

这次,我们使用xweight 参数为权重衡量球员统计数据 。

使用type = "codes" 我们进行绘制,可以 得到标准的可视化球员状态(Codes X)和球员位置预测(Codes Y)。

该视图使我们可以将球员统计数据与位置预测进行比较。

可视化预测:自定义SOM

在最后一个示例中,我们将对该type = mapping 图进行一些自定义, 以便我们可以同时表示实际球员位置和SOM的预测位置。我们将从可视化开始。

背景颜色绘制的球员点的背景代表其真实位置。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498