我们试图识别客户对各种产品的偏好,传统的回归是不够的,因为数据集的高度分量以及变量的多重共线性。
PLS是处理这些有问题的数据集的强大而有效的方法。
可下载资源
偏最小二乘回归
我们将看看PLS回归和PLS路径分析。我不相信传统的回归在这一点上是有价值的,因为我们没有良好的感觉或理论来对潜在的结构做出假设。此外,由于数据集中的变量数量众多,我们正在将SEM技术扩展到极限。Haenlein,M&Kaplan,A.,2004年,“初步指南偏最小二乘分析”,Understanding Statistics,3(4),283-297中可以找到关于这个限制的有趣讨论。
建模原理
假定P个自变量{x1,...,xp}和个因变量{y1,…,yq},构成自变量与因变量的数据表X={x1,...,xp}和Y={y1,…,yq}.在X与F中提取出成分t1和u1,在提取t1和u1成分时,满足t1和u1应尽可能大地携带他们各自数据表中的变异信息,以及t1和u1与的相关程度能够达到最大.第一个成分t1和u1被提取后,分别实施X对t1以及Y对u1的回归.若回归方程此时已经达到满意的精度,则成分确定;否则将利用X被t1以及F被u1解释后的残余信息进行第二轮的成分t2和u2提取,继续实施X和Y对t2和u2的回归,对上述过程进行迭代,直到精度满足要求为止.若最终对X共提取了m个成分t1,…,tm,再通过实施F对t1…,tm的回归,最后都可转化为Y对原变量x1,…,xp的回归方程,完成了偏最小二乘的回归建模.
建模过程
step1:数据标准化
step2:求相关系数矩阵
step3:分别提出自变量组与因变量组的成分,在这里我的标准是当前k个成分解释自变量的比率达到90%时,取前k个成分
step4:求k个成分对时标准化指标变量与成分变量之间的回归方程
step5:求因变量与自变量组之间的回归方程,即将step3中的成分带到step4中所得的回归方程,得到标准化指标变量之间的回归方程,再将标准化的回归变量还原成原始变量。
[1]“diesel”“turbo”“two.doors”“hatchback”“wheel.base”
[6]“length”“width”“height”“curb.weight”“eng.size”
[ 11]“马力”“峰值.rpm”“价格” “city.mpg”
[16]“ highway.mpg ”
这些数据有16个变量和30个观测值。
关于PLS回归的一个有趣的事情是你可以有多个响应变量,plsdepot可以适应这种类型的分析。在这种情况下,我只想分析一个Y变量,那就是价格。
该包的一个特点是你需要将预测变量和响应分开,即将响应变量列放在数据帧的末尾。
#把变量价格(第13列)放在最后
pls1 $ x.scores X分数(T分量)
$ x.loads X-loadings
$ y.scores Y-scores(U-components)
$ y.loads Y-loadings
$ cor.xyt得分相关性
$ raw.wgs原始权重
$ mod.wgs修改权重
$ std.coefs标准系数
$ reg.coefs常规系数
$ R2 R平方
$ R2Xy解释Xy的方差T
$ y.pred y-预测
$ resid 残差
$ T2 T2经济系数
>#相关图; 注意什么与价格高度相关
我们将不得不继续查看不同数量的成分以确定最佳模型,并从实际角度查看潜在变量是否有意义。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!