变量选择是高维统计建模的重要组成部分。

由Kaizong Ye，Sherry Deng撰写

许多流行的变量选择方法，例如 LASSO，都存在偏差。

变量选择方法是在数据分析和建模过程中，用于确定哪些变量对目标变量有重要影响并将其选入模型的方法。LASSO（Least Absolute Shrinkage and Selection Operator，最小绝对值收敛和选择算子）是一种常用的变量选择方法。它通过在回归模型的损失函数中加入一个惩罚项，使得一些系数被压缩为零，从而实现变量的选择和模型的精简。例如，在多元线性回归中，LASSO 可以帮助确定哪些自变量对因变量的影响最为显著，同时减少过拟合的风险。

带平滑削边绝对偏离(smoothly clipped absolute deviation,_SCAD_)正则项的回归问题或平滑剪切绝对偏差 (SCAD) 估计试图缓解这种偏差问题，同时还保留了稀疏性的连续惩罚。

带平滑削边绝对偏离（smoothly clipped absolute deviation，SCAD）正则项的回归问题是一种特定类型的回归问题，其中引入了 SCAD 正则项。平滑剪切绝对偏差（SCAD）估计是一种估计方法，其目的是缓解某种偏差问题。这种估计方法利用了 SCAD 正则项，在进行回归分析时，通过对模型参数进行约束，来达到缓解偏差问题的效果，同时还可能具有其他特性，如保留稀疏性的连续惩罚等。

可下载资源

完整程序、数据和文档（word）

本文分析的智能体、数据、代码、报告分享至会员群

加入会员群

作者

Kaizong Ye
✉ 联系我们

惩罚最小二乘法

一大类变量选择模型可以在称为“惩罚最小二乘法”的模型族下进行描述。这些目标函数的一般形式是

线性回归因自变量共线性、实际分布厚尾、存在离群点等问题，OLS回归预测总误差较大。弹性网族回归（Lasso、ENet、Ridge）、非凸惩罚函数回归(SCAD、MCP)、分位数回归的差异与效果，通过控制模型方差和偏差，最终降低模型预测总误差，相对于OLS回归，显著提升变量选择能力和预测的稳健性。

Lasso目标函数为凸易计算，压缩无关变量系数为0，鲁棒性佳

Ridge回归唯一有显示解，计算简单；ENet、Lasso、SCAD、MCP回归均能将较小系数压缩至0，且选择性压缩共线性变量中的一个。Lasso、SCAD、MCP回归方法的变量选择最有效，样本外的预测效果最佳。Lasso目标函数为凸易计算，压缩无关变量系数为0，鲁棒性佳，尤其实用。SCAD满足渐近无偏性，但计算复杂。

其中是设计矩阵，是因变量的向量，是系数的向量，是由正则化参数索引的惩罚函数 .

作为特殊情况，请注意 LASSO 对应的惩罚函数为，而岭回归对应于 . 回想下面这些单变量惩罚的图形形状。

视频

Lasso回归、岭回归等正则化回归数学原理及R语言实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

SCAD

Fan和Li（2001）提出的平滑剪切绝对偏差（SCAD）惩罚，旨在鼓励最小二乘法问题的稀疏解，同时也允许大值的 β
. SCAD惩罚是一个更大的系列，被称为 “折叠凹陷惩罚”，它在以下方面是凹的， R+ 和 R-
. 从图形上看，SCAD 惩罚如下所示：

想了解更多关于模型定制、咨询辅导的信息？

✉

联系我们

有点奇怪的是，SCAD 惩罚通常主要由它的一阶导数定义，而不是 . 它的导数是

其中 a 是一个可调参数，用于控制 β 值的惩罚下降的速度，以及函数等于如果 , 否则为 0。

我们可以通过分解惩罚函数在不同数值下的导数来获得一些洞察力 λ:

对于较大的 β 值（其中 )，惩罚对于 β 是恒定的。换句话说，在 β 变得足够大之后，β 的较高值不会受到更多的惩罚。这与 LASSO 惩罚形成对比，后者具有关于 |β|的单调递增惩罚：

最受欢迎的见解

1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)

2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析

3.主成分分析(PCA)基本原理及分析实例

4.基于R语言实现LASSO回归分析

5.使用LASSO回归预测股票收益数据分析

6.r语言中对lasso回归，ridge岭回归和elastic-net模型

7.r语言中的偏最小二乘回归pls-da数据分析

8.r语言中的偏最小二乘pls回归算法

9.R语言线性判别分析（LDA），二次判别分析（QDA）和正则判别分析（RDA）

但是，这意味着对于大系数值，他们的 LASSO 估计将向下偏置。

另一方面，对于较小的 β 值（其中 |β|≤λ），SCAD 惩罚在 β 中是线性的。对于 β 的中等值（其中），惩罚是二次的。

Python用T-SNE非线性降维技术拟合和可视化高维数据iris鸢尾花、MNIST 数据

阅读文章 >

分段定义，pλ(β) 是

在 Python 中，SCAD 惩罚及其导数可以定义如下：

随时关注您喜欢的主题

def scad:
    s_lar 
    iudic =np.lgicand
    iscsat = (vl * laval) < np.abs
    
    lie\_prt = md\_val * pab* iliear

    return liprt + urtirt + cosaat