变量选择是高维统计建模的重要组成部分。
许多流行的变量选择方法,例如 LASSO,都存在偏差。
带平滑削边绝对偏离(smoothly clipped absolute deviation,_SCAD_)正则项的回归问题或平滑剪切绝对偏差 (SCAD) 估计试图缓解这种偏差问题,同时还保留了稀疏性的连续惩罚。
可下载资源
惩罚最小二乘法
一大类变量选择模型可以在称为“惩罚最小二乘法”的模型族下进行描述。这些目标函数的一般形式是
线性回归因自变量共线性、实际分布厚尾、存在离群点等问题,OLS回归预测总误差较大。弹性网族回归(Lasso、ENet、Ridge)、非凸惩罚函数回归(SCAD、MCP)、分位数回归的差异与效果,通过控制模型方差和偏差,最终降低模型预测总误差,相对于OLS回归,显著提升变量选择能力和预测的稳健性。
Lasso目标函数为凸易计算,压缩无关变量系数为0,鲁棒性佳
Ridge回归唯一有显示解,计算简单;ENet、Lasso、SCAD、MCP回归均能将较小系数压缩至0,且选择性压缩共线性变量中的一个。Lasso、SCAD、MCP回归方法的变量选择最有效,样本外的预测效果最佳。Lasso目标函数为凸易计算,压缩无关变量系数为0,鲁棒性佳,尤其实用。SCAD满足渐近无偏性,但计算复杂。
其中 是设计矩阵, 是因变量的向量, 是系数的向量, 是由正则化参数索引的惩罚函数 .
作为特殊情况,请注意 LASSO 对应的惩罚函数为 ,而岭回归对应于 . 回想下面这些单变量惩罚的图形形状。
SCAD
Fan和Li(2001)提出的平滑剪切绝对偏差(SCAD)惩罚,旨在鼓励最小二乘法问题的稀疏解,同时也允许大值的 β
. SCAD惩罚是一个更大的系列,被称为 “折叠凹陷惩罚”,它在以下方面是凹的, R+ 和 R-
. 从图形上看,SCAD 惩罚如下所示:
有点奇怪的是,SCAD 惩罚通常主要由它的一阶导数定义 , 而不是 . 它的导数是
其中 a 是一个可调参数,用于控制 β 值的惩罚下降的速度,以及函数 等于 如果 , 否则为 0。
我们可以通过分解惩罚函数在不同数值下的导数来获得一些洞察力 λ:
对于较大的 β 值 (其中 ),惩罚对于 β 是恒定的。换句话说,在 β 变得足够大之后,β 的较高值 不会受到更多的惩罚。这与 LASSO 惩罚形成对比,后者具有关于 |β|的单调递增惩罚:
但是,这意味着对于大系数值,他们的 LASSO 估计将向下偏置。
另一方面,对于较小的 β 值 (其中 |β|≤λ),SCAD 惩罚在 β 中是线性的。对于 β 的中等值(其中 ),惩罚是二次的。
分段定义,pλ(β) 是
在 Python 中,SCAD 惩罚及其导数可以定义如下:
随时关注您喜欢的主题
def scad: s_lar iudic =np.lgicand iscsat = (vl * laval) < np.abs lie\_prt = md\_val * pab* iliear return liprt + urtirt + cosaat
使用 SCAD 拟合模型
拟合惩罚最小二乘模型(包括 SCAD 惩罚模型)的一种通用方法是使用局部二次近似。这种方法相当于在初始点 β0 周围拟合二次函数 q(β),使得近似:
- 关于 0 对称,
- 满足 q(β0)=pλ(|β0|),
- 满足 q ′ (β0) = p′λ (| β0 |)。
因此,逼近函数必须具有以下形式
对于不依赖于 β 的系数 a 和 b 。
上面的约束为我们提供了一个可以求解的两个方程组:
为了完整起见,让我们来看看解决方案。重新排列第二个方程,我们有
将其代入第一个方程,我们有
因此,完整的二次方程是
现在,对于系数值的任何初始猜测 β0,我们可以使用上面的 q 构造惩罚的二次估计。然后,与初始 SCAD 惩罚相比,找到此二次方的最小值要容易得多。
从图形上看,二次近似如下所示:
将 SCAD 惩罚的二次逼近代入完整的最小二乘目标函数,优化问题变为:
忽略不依赖于 β 的项,这个最小化问题等价于
巧妙地,我们可以注意到这是一个岭回归问题,其中
回想一下, 岭回归 是
这意味着近似的 SCAD 解是
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!