在存在缺失数据的情况下，需要根据缺失数据的机制和用于处理缺失数据的统计方法定制变量选择方法。

由Kaizong Ye，Weilong Zhang撰写

我们专注于可以与插补相结合的随机和变量选择方法的缺失方法。

我们围绕自举Bootstrap插补和稳定性选择技术进行一些咨询，帮助客户解决独特的业务问题，后者是为完全观察的数据而开发的。

可下载资源

所提出的方法是通用的，可以应用于广泛的设置。

× Bootstrap简介Bootstrap方法是非常有用的一种统计学上的估计方法，是斯坦福统计系的教授Bradley Efron(我曾有幸去教授办公室约谈了一次)在总结、归纳前人研究成果的基础上提出一种新的非参数统计方法。Bootstrap是一类非参数Monte Carlo方法,其实质是对观测信息进行再抽样，进而对总体的分布特性进行统计推断。因为该方法充分利用了给定的观测信息，不需要模型其他的假设和增加新的观测，并且具有稳健性和效率高的特点。1980年代以来，随着计算机技术被引入到统计实践中来，此方法越来越受欢迎，在机器学习领域应用也很广泛。首先，Bootstrap通过重抽样，可以避免了Cross-Validation造成的样本减少问题，其次，Bootstrap也可以用于创造数据的随机性。比如，我们所熟知的随机森林算法第一步就是从原始训练数据集中，应用bootstrap方法有放回地随机抽取k个新的自助样本集，并由此构建k棵分类回归树。

仿真研究表明，与几种针对低维和高维问题的现有方法相比，BI-SS的性能是最好的或接近最好的，并且对变量选择方面的参数值调整相对不敏感。

引言

变量选择已经广泛研究了完全观察到的数据，现有方法包括基于AIC的经典方法（Akaike，1974）和现代正则化方法，如套索（Tibshirani，1996）。与完全观测的数据相比，在存在缺失数据的情况下，变量选择出现了新的挑战。

视频

Lasso回归、岭回归等正则化回归数学原理及R语言实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

什么是Bootstrap自抽样及R语言Bootstrap线性回归预测置信区间

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

特别是，存在不同的缺失数据机制，对于每种机制，都有不同的统计方法来处理缺失数据。因此，变量选择方法需要根据缺失的数据机制和所使用的统计方法进行调整。Little和Rubin（2002）和Tsiatis（2006）一起对处理缺失数据的现有统计方法进行了全面回顾。

本文重点研究了随机缺失（MAR）的机制。根据MAR研究了变量选择，并对用于处理缺失数据的统计方法进行了研究。


### 具有非正态变量的示例数据集
set.seed(1000)
n <- 50
x1 <- round(runif(n,0.5,3.5))
x2 <- as.factor(c(rep(1,10),rep(2,25),rep(3,15)))

Bootstrap插补

随机创建缺失值

dat <- mice(data1)
complete(dat)

稳定性选择与自举插补相结合

train <- data[trainindex,1:6]
calibrate <- data[-trainindex,1:6]
plot(train)

Bootstrap插补

套索LASSO回归

lambda的最优值是通过交叉验证选择的。

Bolasso与自举插补相结合

beta.rescaled <- beta
for(j in 1:nrow(beta.rescaled)){
  beta.rescaled[j,] <- beta.rescaled[j,]*beta.scale

最受欢迎的见解

1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)

2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析

3.主成分分析(PCA)基本原理及分析实例

4.R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归

5.使用LASSO回归预测股票收益数据分析

6.r语言中对lasso回归，ridge岭回归和elastic-net模型

7.r语言中的偏最小二乘回归pls-da数据分析

8.R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

9.R语言主成分分析（PCA）葡萄酒可视化：主成分得分散点图和载荷图

计算RSS

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

阅读文章 ➜

随时关注您喜欢的主题

讨论

本文研究了一种在缺少数据的情况下进行变量选择的通用重采样方法，数值结果表明，对低维和高维问题都具有较好的性能。当专注于回归分析时，所提出的方法可以解读为适用于其他类型的分析。

在我们感兴趣的背景下，将标准误差处理为参数估计是一项具有挑战性的任务。一种方法是将现有的获取标准误差的方法应用于仅限于变量选择过程选择的预测器的原始数据。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言缺失数据变量选择LASSO回归：Bootstrap重（再）抽样插补和推算

在存在缺失数据的情况下，需要根据缺失数据的机制和用于处理缺失数据的统计方法定制变量选择方法。

引言

Bootstrap插补

随机创建缺失值

稳定性选择与自举插补相结合

Bootstrap插补

套索LASSO回归

Bolasso与自举插补相结合

计算RSS

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

随时关注您喜欢的主题

讨论

相关文章

R语言缺失数据变量选择LASSO回归：Bootstrap重（再）抽样插补和推算

在存在缺失数据的情况下，需要根据缺失数据的机制和用于处理缺失数据的统计方法定制变量选择方法。

引言

Bootstrap插补

随机创建缺失值

稳定性选择与自举插补相结合

Bootstrap插补

套索LASSO回归

Bolasso与自举插补相结合

计算RSS

R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析

随时关注您喜欢的主题

讨论

相关文章

关注我们，永远不要错过任何见解。