偏最小二乘回归

我们将看看PLS回归和PLS路径分析。我不相信传统的回归在这一点上是有价值的，因为我们没有良好的感觉或理论来对潜在的结构做出假设。此外，由于数据集中的变量数量众多，我们正在将SEM技术扩展到极限。Haenlein，M＆Kaplan，A.，2004年，“初步指南偏最小二乘分析”，Understanding Statistics，3（4），283-297中可以找到关于这个限制的有趣讨论。

建模原理

假定Ｐ个自变量｛x1，．．．，xp｝和个因变量｛y1，…，yq｝，构成自变量与因变量的数据表Ｘ＝｛x1，．．．，xp｝和Y＝｛y1，…，yq｝．在Ｘ与Ｆ中提取出成分t1和u1，在提取t1和u1成分时，满足t1和u1应尽可能大地携带他们各自数据表中的变异信息，以及t1和u1与的相关程度能够达到最大．第一个成分t1和u1被提取后，分别实施Ｘ对t1以及Y对u1的回归．若回归方程此时已经达到满意的精度，则成分确定；否则将利用Ｘ被t1以及F被u1解释后的残余信息进行第二轮的成分t2和u2提取，继续实施Ｘ和Y对t2和u2的回归，对上述过程进行迭代，直到精度满足要求为止．若最终对Ｘ共提取了ｍ个成分t1，…，tm，再通过实施Ｆ对t1…,tm的回归，最后都可转化为Y对原变量x1，…，xp的回归方程，完成了偏最小二乘的回归建模．

建模过程

step1：数据标准化

step2：求相关系数矩阵

step3：分别提出自变量组与因变量组的成分，在这里我的标准是当前k个成分解释自变量的比率达到90%时，取前k个成分

step4：求k个成分对时标准化指标变量与成分变量之间的回归方程

step5：求因变量与自变量组之间的回归方程，即将step3中的成分带到step4中所得的回归方程，得到标准化指标变量之间的回归方程，再将标准化的回归变量还原成原始变量。

[1]“diesel”“turbo”“two.doors”“hatchback”“wheel.base”

[6]“length”“width”“height”“curb.weight”“eng.size”

[ 11]“马力”“峰值.rpm”“价格” “city.mpg”

[16]“ highway.mpg ”

这些数据有16个变量和30个观测值。

关于PLS回归的一个有趣的事情是你可以有多个响应变量，plsdepot可以适应这种类型的分析。在这种情况下，我只想分析一个Y变量，那就是价格。

课程

R语言数据分析挖掘必知必会

从数据获取和清理开始，有目的的进行探索性分析与可视化。让数据从生涩的资料，摇身成为有温度的故事。

立即参加 ➜

该包的一个特点是你需要将预测变量和响应分开，即将响应变量列放在数据帧的末尾。

＃把变量价格（第13列）放在最后

pls1 $ x.scores X分数（T分量）

$ x.loads X-loadings

$ y.scores Y-scores（U-components）

$ y.loads Y-loadings

$ cor.xyt得分相关性

$ raw.wgs原始权重

$ mod.wgs修改权重

$ std.coefs标准系数

$ reg.coefs常规系数

$ R2 R平方

$ R2Xy解释Xy的方差T

$ y.pred y-预测

$ resid 残差

$ T2 T2经济系数

>＃相关图; 注意什么与价格高度相关