本文将关注R语言中的LASSO（Least Absolute Shrinkage and Selection Operator）惩罚稀疏加法模型（Sparse Additive Model，简称SPAM）。

由Kaizong Ye，Coin Ge撰写

SPAM是一种用于拟合非线性数据的强大工具，它可以通过估计非线性函数的加法组件来捕捉输入变量与响应变量之间的复杂关系。

在当今数据驱动的时代，各个领域所产生的数据呈现出复杂多样的特征。许多实际问题中的数据并非简单的线性关系，而是蕴含着丰富的非线性结构。例如在生物医学研究中，基因表达水平与疾病特征之间的关联；在金融市场里，资产价格波动与宏观经济指标之间的联系等，都往往具有复杂的非线性特征。传统的线性模型由于其自身的局限性，难以准确捕捉这些复杂的非线性关系，从而无法对数据进行有效的拟合和分析。

稀疏加法模型（SPAM）作为一种强大的统计模型，结合了加法模型能够处理非线性关系的优势以及稀疏性约束的特点，可以有效地识别出数据中真正重要的变量，并对变量之间的非线性效应进行建模。Lasso 惩罚则为 SPAM 模型提供了一种有效的变量选择方法，通过对模型系数施加惩罚，使得一些不重要的系数收缩为零，从而实现模型的稀疏化，提高模型的解释性和预测性能。

通过本文，我们将展示如何帮助客户在R语言中使用LASSO惩罚稀疏加法模型（SPAM）来拟合非线性数据，并进行相应的可视化分析。

可下载资源

完整程序、数据和文档（word）

成为新会员获取本文分析的智能体、数据、代码、报告

加入会员群

作者

Kaizong Ye
✉ 联系我们

本文提供了一个代码来设置、拟合和可视化加法模型。数值特征会自动使用样条基函数进行扩展。

× LASSO方法是一种正则化技术，旨在通过在系数中引入一些偏差来减少OLS方法产生的方差（Lesmeister，2015）。该模型不仅最小化残差平方和(RSS)，而且还最小化由调谐参数和系数绝对值组成的惩罚：在最小化过程中，增大，系数减小，使得预测对输入值的敏感性降低，从而减少了过拟合和高方差的问题。降低系数的过程允许一些系数降为零，这一优势可以删除解释力很小的变量，并将模型限制在最有意义的特征上。正确的惩罚量由值决定，由0到1组成，通常通过交叉验证来选择。然而，机器学习技术存在缺乏理论背景的问题。为了弥补这一点，Chernozhukov等（2016）提出了对LASSO技术的改进，该技术依赖于理论上基于数据驱动的惩罚水平的选择，称为严格LASSO，并在R语言中的hdm包中实现。此外，为了消除因将系数缩小到零而产生的潜在偏差，使用了事后LASSO估计量。在去除未被LASSO选择的回归量后，将OLS应用于数据（Belloni和Chernozhukov，2013）。

这个基本思想最早是由Ravikumar等人在2009年提出的，他们称之为SPAM，即稀疏加法模型。

最初的提议涉及到组套索lasso惩罚，但grpreg的任何惩罚函数都可以代替。基本用法如下所示。

非线性数据：

视频

R语言广义相加模型（GAM）在电力负荷预测中的应用

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

非线性模型原理与R语言多项式回归、局部平滑样条、广义相加模型GAM分析

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜


dim(Data$X)
# [1] 1000   16

矩阵包含 16 个数字特征。

生成的对象是一个列表，其中包含扩展矩阵和分组分配，以及一些内部函数所需的元数据。使用具有三个自由度的自然三次样条曲线。

现在可以将扩展后的矩阵传递给 :grpreg()

fit <- grpreg

请注意，在这种情况下不必传递分组信息，因为分组信息包含在对象中。

plot_spline(fit,

偏残差也可包含在这些图中：


plot_splinpartial=TRUE)

默认情况下，这些图的居中值为 x(的平均值（其中 x表示正在绘制的特征）的平均值为零时，y值为零。另一种情况是，如果指定了plot_spline()x，则将绘制一幅纵轴代表模型预测值的曲线图，所有其他特征都固定为平均值：


plot_spline(fit, "V02, type='conditional')

在比较这两幅图时，请注意总体轮廓是相同的，唯一不同的是纵轴的值。下面是前 9 个系数的曲线图：

for (i in 1:9) ploline(fit

R语言用GAM广义相加模型研究公交专用道对行程时间变异度数据的影响

阅读文章 ➜

随时关注您喜欢的主题

在生成模型中，变量 3 和 4 与结果呈线性关系，变量 1、2、5 和 6 呈非线性关系，而所有其他变量均不相关。稀疏加法模型很好地捕捉到了这一点。

进行交叉验证（默认情况下会绘制出使交叉验证误差最小的拟合结果）：


cvfit <- cv.grp plot_line

最后，这些工具还可用于生存模型和 glm 模型。在这里，所有绘图都以线性预测尺度返回，残差为偏差残差。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！