今天，我们将看下bagging 技术里面的启发式算法。

由Kaizong Ye，Sherry Deng撰写

通常，bagging 与树有关，用于生成森林。

但实际上，任何类型的模型都有可能使用bagging 。

可下载资源

完整程序、数据和文档（word）

成为新会员获取本文分析的智能体、数据、代码、报告

加入会员群

作者

Kaizong Ye
✉ 联系我们

回顾一下，bagging意味着 “boostrap聚合”。因此，考虑一个模型m：X→Y。让

表示从样本中得到的m的估计

集成学习有许多集成模型，例如自助法、自助聚合(Bagging)、随机森林、提升法(Boosting)、堆叠法(stacking)以及许多其它的基础集成学习模型。

集成方法的思想是通过将这些个体学习器(个体学习器称为“基学习器”，基学习器也被称为弱学习器。)的偏置和/或方差结合起来，从而创建一个强学习器(或集成模型)，从而获得更好的性能。

我们可以用三种主要的旨在组合弱学习器的元算法：

自助聚合(Bagging)，该方法通常考虑的是同质弱学习器，相互独立地并行学习这些弱学习器，并按照某种确定性的平均过程将它们组合起来。
提升法(Boosting)，该方法通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器(每个基础模型都依赖于前面的模型)，并按照某种确定性的策略将它们组合起来。
堆叠法(Stacking)，该方法通常考虑的是异质弱学习器，并行地学习它们，并通过训练一个元模型将它们组合起来，根据不同弱模型的预测结果输出一个最终的预测结果。

非常粗略地说，我们可以说Bagging的重点在于获得一个方差比其组成部分更小的集成模型，而Boosting和Stacking则将主要生成偏置比其组成部分更低的强模型(即使方差也可以被减小)。

现在考虑一些boostrap样本，

，i是从{1,,n}中随机抽取的。基于该样本，估计

。

然后抽出许多样本，考虑获得的估计值的一致性，使用多数规则，或使用概率的平均值（如果考虑概率主义模型）。因此

视频

Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

视频

逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

Bagging逻辑回归

考虑一下逻辑回归的情况。为了产生一个bootstrap样本，自然要使用上面描述的技术。即随机抽取一对(yi,xi)，均匀地（概率为）替换。这里考虑一下小数据集。对于bagging部分，使用以下代码

for(s in 1:1000){
  df_s = df\[sample(1:n,size=n,replace=TRUE)
  logit\[s\]= glm(y~., df_s, family=binomial

然后，我们应该在这1000个模型上进行汇总，获得bagging的部分。

  unlist(lapply(1:1000,function(z) predict(logit\[z\],nnd))}

我们现在对任何新的观察都有一个预测

vv = outer(vu,vu,(function(x,y) mean(pre(c(x,y)))
contour(vu,vu,vv,levels = .5,add=TRUE)

Bagging逻辑回归

另一种可用于生成bootstrap样本的技术是保留所有的xi，但对其中的每一个，都（随机地）抽取一个y的值，其中有

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

因此

因此，现在Bagging算法的代码是

glm(y~x1+x2, df, family=binomial)
for(s in 1:100)
  y = rbinom(size=1,prob=predict(reg,type="response")
  L\_logit\[s\] = glm(y~., df\_s, family=binomial)

bagging算法的agg部分保持不变。在这里我们获得

vv = outer(vu,vu,(function(x,y) mean(pre(c(x,y)))))
contour(vu,vu,vv,levels = .5,add=TRUE)

当然，我们可以使用该代码，检查预测获得我们的样本中的观察。

在这里考虑心肌梗塞数据。

最受欢迎的见解

1.用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)的应用

2.R语言GARCH-DCC模型和DCC（MVT）建模估计

3.R语言实现 Copula 算法建模依赖性案例分析报告

4.R语言COPULAS和金融时间序列数据VaR分析

5.R语言多元COPULA GARCH 模型时间序列预测

6.用R语言实现神经网络预测股票实例

7.r语言预测波动率的实现：ARCH模型与HAR-RV模型

8.R语言如何做马尔科夫转换模型markov switching model

9.matlab使用Copula仿真优化市场风险

数据

我们使用心脏病数据，预测急诊病人的心肌梗死，包含变量：

心脏指数
心搏量指数
舒张压
肺动脉压
心室压力
肺阻力
是否存活

R语言基于树的方法：决策树，随机森林，Bagging，增强树

阅读文章

其中我们有急诊室的观察结果，对于心肌梗塞，我们想了解谁存活下来了，得到一个预测模型

reg = glm(as.factor(PRO)~., carde, family=binomial)
for(s in 1:1000){
  L\_logit\[s\] = glm(as.factor(PRO)~., my\_s, family=binomial)
}

unlist(lapply(1:100,predict(L_logit\[z\],newdata=d,type="response")}

对于第一个观察，通过我们的1000个模拟数据集，以及我们的1000个模型，我们得到了以下死亡概率的估计。

v_x = p(x)
hist(v_x,proba=TRUE,breaks=seq(,by.05),=",="",
segments(mean(v\_x),0,mean(v\_x,5="=2)

因此，对于第一个观察，在78.8%的模型中，预测的概率高于50%，平均概率实际上接近75%。

随时关注您喜欢的主题

或者，对于样本22，预测与第一个非常接近。

histo(23)
histo(11)

我们在此观察到

Bagging决策树

Bagging是由Leo Breiman于1994年在Bagging Predictors中介绍的。如果说第一节描述了这个程序，那么第二节则介绍了 “Bagging分类树”。

树对于解释来说是不错的，但大多数时候，它们是相当差的预测模型。Bagging的想法是为了提高分类树的准确性。bagging 的想法是为了生成大量的树。

for(i in 1:12)
  set.seed(sed\[i\])
idx = sample(1:n, size=n, replace=TRUE)
cart =  rpart(PR~., md\[idx,\])

这个策略其实和以前一样。对于bootstrap部分，将树存储在一个列表中

for(s in 1:1000)
idx = sample(1:n, size=n, replace=TRUE)
  L_tree\[\[s\]\] = rpart(as.(PR)~.)

而对于汇总部分，只需取预测概率的平均值即可

p = function(x){
  unlist(lapply(1:1000,function(z) predict(L_tree\[z\],newdata,)\[,2\])

因为在这个例子中，我们无法实现预测的可视化，让我们在较小的数据集上运行同样的代码。

for(s in 1:1000){
  idx = sample(1:n, size=n, replace=TRUE)
  L_tree\[s\] = rpart(y~x1+x2,
}
  unlist(lapply(1:1000,function(z) predict(L_tree\[\[z\]\])
outer(vu,vu,Vectorize(function(x,y) mean(p(c(x,y)))

从bagging到森林

在这里，我们生成了很多树，但它并不是严格意义上的随机森林算法，正如1995年在《随机决策森林》中介绍的那样。实际上，区别在于决策树的创建。当我们有一个节点时，看一下可能的分割：我们考虑所有可能的变量，以及所有可能的阈值。这里的策略是在p中随机抽取k个变量（当然k<p，例如k=sqrt{p}）。这在高维度上是有趣的，因为在每次分割时，我们应该寻找所有的变量和所有的阈值，而这可能需要相当长的时间（尤其是在bootstrap 程序中，目标是长出1000棵树）。