PLS-DA (Partial Least Squares Discriminant Analysis) 是一种多变量统计分析方法，常用于处理具有多个预测变量和多个响应变量的数据。

由Kaizong Ye，Weilong Zhang撰写

在本文中，我们帮助客户使用了PLS-DA方法来挖掘两个疾病的不同中医分组方式下存在差异的指标。

首先，我们有两个Excel文件，分别是患者的证素数据。

可下载资源

每一列代表一位患者的多个数据，不同颜色代表了不同的分组。我们想要通过PLS-DA挖掘不同组别患者间存在差异的指标。

× 偏最小二乘法判别分析，即我们常说的PLS-DA（Partial Least Squares Discriminant Analysis），经常被用来处理分类和判别问题。这种方法和PCA分析方法是比较类似的，区别在于二者是否有监督，一般PCA是无监督的，而PLS-DA是有监督的。当碰到样本组间差异大而组内差异小的情况，常见的PCA分析方法是可以很好地区分组间差异的，但是遇到样本组间差异不大的情况，PCA方法显然是难以区分组间差异的，这时候就需要有监督的分析（PLS-DA）去解决这个问题。

两个EXCEL分别是患者的证素的数据，由于是评分性质的，所以都是不连续的数字。

每一列代表一位患者的多个数据，不同颜色代表了不同的分组，想通过PLS-DA挖掘下不同组别患者间存在差异的指标有哪些。2个EXCEL是分开的2个疾病，每个疾病下包含不同中医的分组方式，主要想挖掘下不同中医分组方式下存在差异的指标。一方面需要找到这些存在差异的指标，每一列代表一位患者的多个数据，不同颜色代表了不同的分组。

视频

主成分分析PCA降维方法和R语言分析葡萄酒可视化实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

数据1

在R语言中，我们首先将数据导入并进行预处理。我们使用read.csv函数将数据1导入，并将不需要的列删除。然后，我们使用na.omit函数删除含有缺失值的行。最后，我们为每个患者指定一个组别，分别为A、B、C、D、E和F。

data=read.csv("数据1.csv") X=data X=X[,-53] #分别设置组别和指标 X=na.omit(X) Y=c(rep("A",29),rep("B",19),rep("C",27),rep("D", 8),rep("E",9),rep("F",4) )

进行PLS-DA模型的建立

接下来，我们使用PLS-DA建立模型。建立PLS-DA模型，并将数据集和组别变量作为输入。建立模型后，我们可以查看不同组别分别有哪些指标，以及哪些指标之间存在显著的差异。


tIndiv(plsda.breast,

从结果中可以看到不同组别分别有哪些指标,以及哪些指标之间存在显著的差异？

从图中可以看到,分组a和分组b之间存在显著的差异,分组cdef之间的差异较小,分组a分组b和分组cdef间均存在显著差异

最受欢迎的见解

1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)

2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析

3.主成分分析(PCA)基本原理及分析实例

4.R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归

5.使用LASSO回归预测股票收益数据分析

6.r语言中对lasso回归，ridge岭回归和elastic-net模型

7.r语言中的偏最小二乘回归pls-da数据分析

8.R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

9.R语言主成分分析（PCA）葡萄酒可视化：主成分得分散点图和载荷图

指示变量矩阵

st(t(plsda.breast$ind.mat))

MATLAB偏最小二乘回归（PLSR）和主成分回归（PCR）分析光谱数据

阅读文章 ➜

从指示变量矩阵的结果来看,a的特征向量和b的特征向量之间存在显著差异,而cdef之间的差异较小

随时关注您喜欢的主题

数据2

接下来，我们导入数据2，并进行相似的分析步骤。首先，我们使用read.csv函数将数据2导入。然后，我们建立PLS-DA模型，并使用div函数查看不同组别分别有哪些指标，以及哪些指标之间存在显著的差异。

进行PLS-DA模型的建立

div(plsda.breast,  
          ellipse = TRUE

指示变量矩阵


ist(t(plsda.breast$i

从结果中可以看到不同组别分别有哪些指标,以及哪些指标之间存在显著的差异？

从图中可以看到,分组GHEC之间的差异较小,分组ABDFIJK之间差异较小,这两类间均存在显著差异。

从指示变量矩阵的结果来看, GHEC特征向量之间的差异较小距离也较小,分组ABDFIJK之间差异较小距离也较小,这两类间均存在显著差异。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言PLS-DA模型分析不同中医组别患者间差异指标数据可视化

PLS-DA (Partial Least Squares Discriminant Analysis) 是一种多变量统计分析方法，常用于处理具有多个预测变量和多个响应变量的数据。

数据1

进行PLS-DA模型的建立

指示变量矩阵

MATLAB偏最小二乘回归（PLSR）和主成分回归（PCR）分析光谱数据

随时关注您喜欢的主题

数据2

进行PLS-DA模型的建立

指示变量矩阵

相关文章

R语言PLS-DA模型分析不同中医组别患者间差异指标数据可视化

PLS-DA (Partial Least Squares Discriminant Analysis) 是一种多变量统计分析方法，常用于处理具有多个预测变量和多个响应变量的数据。

数据1

进行PLS-DA模型的建立

指示变量矩阵

MATLAB偏最小二乘回归（PLSR）和主成分回归（PCR）分析光谱数据

随时关注您喜欢的主题

数据2

进行PLS-DA模型的建立

指示变量矩阵

相关文章

关注我们，永远不要错过任何见解。