R语言法国足球联赛球员多重对应分析(MCA)

数据来自国际足联的视频游戏FIFA 。游戏的特点是在游戏的各个方面评价每个球员的能力。

由Kaizong Ye,Coin Ge撰写

等级是量化变量(介于0和100之间),但我们将它们转换为分类变量。所有能力都被编码在4个等级:1.低/ 2.平均/ 3.高/ 4.非常高。

加载和准备数据

首先将数据集加载到data.frame中。 

第二行也将整数列转换为因子。 

×

一、对应分析简介

1.1 为什么引入对应分析?

在进行数据分析时遇到分类型数据,并且要研究两个分类变量之间的相关关系,基于均值、方差的分析方法不能够使用,所以通常从编制两变量的交叉表入手,使用卡方检验和逻辑回归等方法;但是当变量的类别或者变量数量两个以上时,再使用以上方法就很难直观揭示变量之间的关系,由此引入对应分析。

1.2 什么是对应分析?

对应分析的实质就是将交叉表里面的频数数据作变换(通过降维的方法)以后,利用图示化(散点图)的方式,从而将抽象的交叉表信息形象化,直观地解释变量的不同类别之间的联系,适合于多分类型变量的研究。

二、 对应方法简介

1、简单对应分析(一般只涉及两个分类变量)

简单对应分析是分析某一研究事件两个分类变量间的关系,其基本思想以点的形式在较低维的空间中表示联列表的行与列中各元素的比例结构,可以在二维空间更加直观的通过空间距离反映两个分类变量间的关系。属于分类变量的典型相关分析。

2、多重对应分析(多于两个分类变量)

简单对应分析是分析两个分类变量间的关系,而多重对应分析则是分析一组属性变量之间的相关性。与简单对应分析一样,多重对应分析的基本思想也是以点的形式在较低维的空间中表示联列表的行与列中各元素的比例结构。

3、数值变量对应分析or均值对应分析(前两种均为分类变量的对应分析,较为常用)

与简单对应分析不同,由于单元格内的数据不是频数,因此不能使用标准化残差来表示相关强度,而只能使用距离(一般使用欧氏距离)来表示相关强度。


对应分析时注意事项

  • 对应分析不能用于相关关系的假设检验。它虽然可以揭示变量间的联系,但不能说明两个变量之间的联系是否显著,因而在做对应分析前,可以用卡方统计量检验两个变量的相关性。

  • 对应分析输出的图形通常是二维的,这是一种降维的方法,将原始的高维数据按一定规则投影到二维图形上。而投影可能引起部分信息的丢失。

  • 对极端值敏感,应尽量避免极端值的存在。如有取值为零的数据存在时,可视情况将相邻的两个状态取值合并。

  • 原始数据的无量纲化处理。运用对应分析法处理问题时,各变量应具有相同的量纲(或者均无量纲)。


数据分析

我们的数据集包含分类变量。适当的数据分析方法是多重对应分析。 

产生了三个图:类别和球员在坐标轴上的投影,以及变量的图形。 

这里显然有两个球员集群。 


课程

R语言数据分析挖掘必知必会

从数据获取和清理开始,有目的的进行探索性分析与可视化。让数据从生涩的资料,摇身成为有温度的故事。

立即参加

解释

显然,我们必须先将分析减少到一定数量的维度。选择变量数量的方法是肘法。我们绘制特征值的图形:

> barplot(mca_no_gk $ eig $ eigenvalue)

特征值图

围绕第三或第四个特征值,我们观察到一个值的下降(这是MCA解释的方差的百分比)。因此,我们选择将我们的分析减少到前三个因子。

> plot.MCA(mca_no_gk  )

在前两个因子坐标轴上投影 

我们可以通过在图表上读取最有代表性的变量名称来开始分析。 

第一因子的最有代表性的能力是:在轴的右侧攻击能力 的能力较弱,左边的能力非常强。因此,我们的解释是,因子1根据他们的进攻能力(左侧更好的攻击能力,右侧更弱)来区分球员。我们对第2因子进行同样的分析,并得出结论:根据他们的防守能力来区分球员:在顶部会发现更好的防守者,而在底部会发现弱防守者。

补充变量也可以帮助确认我们的解释,特别是位置变量:

> plot.MCA(mca_no_gk,invisible = c(“ind”,“var”))

在前两个维度上投影补充变量

实际上,我们在图的左边部分发现了攻击位置(LW,ST,RW),并在图顶部看到了防守位置(CB,LB,RB)。

如果我们的解释是正确的,那么图表中第二个维度上的投影就可以代表球员的整体水平。最强的球员将会在左上角找到,而较弱的将会在右下角找到。“overall_4”位于左上角,“overall_1”位于右下角。此外,在补充变量的图表中,我们观察到“法甲联赛第一”(Ligue 1)位于左上方,而“Ligue 2”位于右下方。

> plot.MCA(mca_no_gk,invisible = c(“ind”,“var”),axes = c(2,3)) 

在第二和第三维度上投影变量

最具代表性的第三维度是技术上的弱点:技术能力较低的球员(运球,控球等)位于坐标轴的末端,而这些能力中成绩最高的球员往往被发现在坐标轴的中心:

在第二和第三因子坐标轴上投影补充变量

在补充变量的帮助下,中场平均拥有最高的技术能力,而前锋(ST)和后卫(CB,LB,RB)似乎一般都不以球控技术着称。

参考Mathieu Valbuena在坐标轴1和坐标轴2上生成的图形:

1和2因子坐标轴补充变量 

第2和3因子坐标轴

所以,马蒂厄·瓦尔布纳似乎有很好的进攻技巧,但他也有很好的整体水平(他在第二因子上的投射比较高)。他也位于第三坐标轴的中心,这表示他具有良好的技术能力。因此,最适合他的位置(统计上)是中场位置(CAM,LM,RM)。再加上几行代码,我们可以找到法国联赛中最相似的球员:

我们得到:Ladislas Douniama,FrédéricSammaritano,Florian Thauvin,N’GoloKanté和Wissam Ben Yedder。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds