此示例显示如何 lasso 识别和舍弃不必要的预测变量。

由Kaizong Ye，Coin Ge撰写

我们围绕Lasso技术进行一些咨询，帮助客户解决独特的业务问题。使用各种方法从指数分布生成 200 个五维数据 X 样本。

rng(3,'twister') %    实现可重复性

for i = 1:5    
    X(:,i) = exprnd
end

可下载资源

完整程序、数据和文档（word）

生成因变量数据 Y = X * r + eps ，其中 r 只有两个非零分量，噪声 eps 正态分布，标准差为 0.1。

LASSO是由1996年Robert Tibshirani首次提出，全称Least absolute shrinkage and selection operator。

该方法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型，使得它压缩一些回归系数，即强制系数绝对值之和小于某个固定值；同时设定一些回归系数为零。因此保留了子集收缩的优点，是一种处理具有复共线性数据的有偏估计。

用拟合交叉验证的模型序列 lasso ，并绘制结果。

Plot(ffo);

视频

Lasso回归、岭回归等正则化回归数学原理及R语言实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

Lambda 该图显示了正则化参数的各种值的回归中的非零系数。较大的值 Lambda 出现在图的左侧，意味着更多的正则化，导致更少的非零回归系数。

虚线代表最小均方误差的Lambda值（在右边），以及最小均方误差加一个标准差的Lambda值。

后者是Lambda的一个推荐设置。这些线条只在你进行交叉验证时出现。

通过设置’CV’名-值对参数来进行交叉验证。

这个例子使用了10折的交叉验证。

图的上半部分显示了自由度（df），即回归中非零系数的数量，是Lambda的一个函数。在左边，Lambda的大值导致除一个系数外的所有系数都是0。

在右边，所有五个系数都是非零的，尽管该图只清楚显示了两个。其他三个系数非常小，几乎等于0。

对于较小的 Lambda 值（在图中向右），系数值接近最小二乘估计。

求 Lambda 最小交叉验证均方误差加上一个标准差的值。

检查 MSE 和拟合的系数 Lambda 。

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI，NRI指标

MSE(lm)

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

阅读文章 ➜

b(:,lam)

随时关注您喜欢的主题

lasso 很好地找到了系数向量 r 。

为了比较，求 r的最小二乘估计。

rhat

估计 b(:,lam) 的均方误差略大于 rhat 的均方误差。

res; % 计算残差
MSEmin

但 b(:,lam) 只有两个非零分量，因此可以对新数据提供更好的预测估计。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

MATLAB用Lasso回归拟合高维数据和交叉验证

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

随时关注您喜欢的主题

相关文章

MATLAB用Lasso回归拟合高维数据和交叉验证

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

随时关注您喜欢的主题

相关文章

关注有关新文章的微信公众号