本文介绍具有分组惩罚的线性回归、GLM和Cox回归模型的正则化路径。

由Kaizong Ye，Sherry Deng撰写

这包括组选择方法，如组lasso套索、组MCP和组SCAD，以及双级选择方法，如组指数lasso、组MCP。

“lasso 套索” 是一种统计方法，通过对回归系数施加 L1 范数惩罚，实现变量选择和参数估计，可以将一些不重要的变量系数压缩为零。
“组 MCP” 即分组最小最大凹惩罚（Group Minimax Concave Penalty），也是一种用于变量选择和参数估计的方法，特别是在处理分组数据时，能够对组效应进行有效的惩罚和选择。
“组 SCAD” 即分组平滑剪辑绝对偏差（Group Smoothly Clipped Absolute Deviation），同样在变量选择和高维数据分析中有广泛应用，对参数估计具有一定的优良性质。

还提供了进行交叉验证以及拟合后可视化、总结和预测的实用程序。

本文提供了一些数据集的例子；涉及识别与低出生体重有关的风险因素。

可下载资源

完整程序、数据和文档（word）

本文分析的智能体、数据、代码、报告分享至会员群

加入会员群

作者

Qing Li
✉ 联系我们

假设Y是由N个样本的观测值构成的向量，X是一个大小为N * p的特征矩阵。在group lasso中，将p个特征分成L组，每个组中特征个数为Pi，其中i的取值为1，2，…, L。将第i个特征组对应的矩阵记为Xi，对应的系数向量记为βi。

容易看出，group lasso是对lasso的一种推广，即将特征分组后的lasso。显然（好久没用这个词了），如果每个组的特征个数都是1，则group lasso就回归到原始的lasso。

group lasso 在特征组内不具有稀疏性。为了使得特征组内的特征具有稀疏性，只需参照原始的lasso中的做法，在目标函数中加入一个惩罚项，这个惩罚项基于对所有特征对应系数的一阶范数。

为了求解group lasso，可以首先假设组内特征是正交的，针对这种情形可以利用分块坐标下降法求解，对于非正交的情形，可以首先对组内特征施加正交化。

结果是连续测量（bwt，以公斤为单位的出生体重），也可以是二分法（低），即新生儿出生体重低（低于2.5公斤）。

head(X)

视频

Lasso回归、岭回归等正则化回归数学原理及R语言实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

原始设计矩阵由 8 个变量组成，此处已将其扩展为 16 个特征。例如，有多个种族指标函数（“其他”是参考组），并且已经使用多项式对比扩展了几个连续因素（例如年龄）（样条曲线会给出类似的结构）。因此，设计矩阵的列被 _分组_；这就是_组_的设计目的。分组信息编码如下：

group

在这里，组是作为一个因子给出的；唯一的整数代码（本质上是无标签的因子）和字符向量也是允许的（然而，字符向量确实有一些限制，因为组的顺序没有被指定）。要对这个数据拟合一个组套索lasso模型。

gLas(X, y，grup）

然后我们可以用以下方法绘制系数路径

plot

请注意，当一个组进入模型时（例如，绿色组），它的所有系数都变成非零；这就是组套索模型的情况。要想知道这些系数是什么，我们可以使用coef。

请注意，在λ=0.05时，医生的就诊次数不包括在模型中。

为了推断模型在各种 λ值下的预测准确性，进行交叉验证。

cv(X, y, grp)

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI，NRI指标

可以通过coef以下方式获得与最小化交叉验证误差的 λ 值对应的系数：

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

阅读文章 >

coef(cvfit)

随时关注您喜欢的主题

预测值可以通过获得 predict，它有许多选项：

predict # 对新观察结果的预测

predicttype="ngroups" # 非零组的数量

 # 非零组的身份

nvars # 非零系数的数量

predict(fit # 非零系数的身份

原始拟合（对完整数据集）返回为`fit`; 其他几种惩罚是可用的，逻辑回归和 Cox 比例风险回归的方法也是如此。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言群组变量选择、组惩罚group lasso套索模型预测分析新生儿出生体重风险因素数据和交叉验证、可视化

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

相关文章

R语言群组变量选择、组惩罚group lasso套索模型预测分析新生儿出生体重风险因素数据和交叉验证、可视化

本文介绍具有分组惩罚的线性回归、GLM和Cox回归模型的正则化路径。

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

随时关注您喜欢的主题

原始拟合（对完整数据集）返回为fit; 其他几种惩罚是可用的，逻辑回归和 Cox 比例风险回归的方法也是如此。

相关文章

关注我们，永远不要错过任何见解。

原始拟合（对完整数据集）返回为`fit`; 其他几种惩罚是可用的，逻辑回归和 Cox 比例风险回归的方法也是如此。