【集成学习】Bagging算法详解及代码实现

news/2025/1/9 16:05:12 标签: 集成学习, 算法, 机器学习, python

文章目录

  • 1. Bagging集成学习算法
    • 1.1 简介
    • 1.2 基本步骤
    • 1.3 Bagging优缺点
    • 1.4 随机森林:Bagging的一个重要应用
    • 1.5 总结
  • 2. Python代码实现
  • 3. 如何理解偏差与方差
    • 3.1 偏差(Bias)
    • 3.2 方差(Variance)
    • 3.3 方差与偏差的权衡
    • 3.4 举例说明
    • 3.5 如何调整偏差和方差
    • 3.6 偏差与方差的计算
  • 4. Bagging是如何减少方差的?

集成学习(Ensemble Learning)是一种通过结合多个模型的预测结果来提高整体预测性能的技术。常见的集成学习框架有:Bagging、Boosting、Stacking。每种方法都有其独特的优势和适用场景,本文主要聚焦于介绍 Bagging 算法

1. Bagging集成学习算法

1.1 简介

Bagging 全称叫做 Bootstrap aggregating,通过训练多个相同类型的基学习器,并将他们的预测结果进行集成,从而提高模型整体性能的集成学习方法。Bagging的核心思想是通过并行训练多个基学习器,每个基学习器在训练集的不同子集上进行训练,最终通过这些基学习器的预测结果进行平均(回归任务)或投票(分类任务)得到最终预测结果。

Bagging基本特点如下:

  • 训练n个模型,每个模型在不同训练子集上独立训练
  • 所有基学习器的预测结果进行平均(回归任务)或投票(分类任务)得到最终决策。
  • 采用 bootstrap 采样(有放回采样)从原始数据集中随机抽取样本,通常每个基学习器都基于不同的数据子集进行训练。对于每个基学习器来说,大约有63%的样本会被重复采样到,而剩余的样本则可用作模型的验证集。

1.2 基本步骤

  • 数据采样: 从原始数据中通过自助法随即有放回的抽取多个子集,每个子集的大小与原始数据相同。由于是有放回的抽样,所以每个子集可能包含重复的数据点,而一些数据点可能未被抽取
  • 训练多个基学习器: 使用不同的子集训练多个基学习器。常见的基学习器是决策树,但也通常可以是其它模型算法
  • 集成预测: 对于分类问题,通过投票的方式决定最终分类结果,对于回归问题,则通常通过取平均的方式得到最终的预测结果

1.3 Bagging优缺点

优点:

  • 降低模型的方差 : 通过训练多个基学习器,Bagging能够有效减少模型的方差,特别是在高方差模型(如决策树)上尤为有效。通过集成多个基学习器,能够平滑预测结果,从而提高模型的稳定性,减少过拟合
  • 并行化 :Bagging中的每个基学习器都可以独立训练,因而具有很好的并行化特性。可以充分利用多核处理器和分布式计算平台,显著加快训练过程
  • 使用性强 :Bagging方法对数据的异常值和噪声具有较好的鲁棒性。由于每个基学习器只依赖于部分数据,因此个别样本的噪声不会对最终结果产生过大影响

缺点:

  • 无法减少模型的偏差: 虽然Bagging能够减少方差,但对于已经有较高偏差的模型(如线性模型),Bagging无法显著提升性能,可能不会有效提高模型的整体准确性。

1.4 随机森林:Bagging的一个重要应用

随机森林(Random Forest)是Bagging算法的一个重要应用,它通过使用决策树作为基学习器并结合Bagging技术来构建集成模型。

  • 随机森林不仅利用了Bagging的思想,还在每次进行bootstrap采样时,额外对特征进行随机选择。具体来说,在每个决策树的节点分裂时,随机选择一部分特征进行训练,这种做法进一步增强了不同决策树之间的差异性
  • 通过引入特征的随机选择,随机森林避免了模型过度拟合,提高了决策树之间的多样性,从而增强了集成模型的性能和稳定性

1.5 总结

  • 适用于高方差模型: Bagging非常适合用于那些本身方差较高、不稳定的模型(如决策树)。通过集成多个模型,能够减少过拟合,增强模型的鲁棒性
  • 对噪声具有鲁棒性: 由于每个基学习器都在不同的数据子集上进行训练,因此Bagging能够有效地应对数据中的噪声和异常值
  • 不适用于高偏差模型: 对于一些本身偏差较大的模型(如线性回归),Bagging无法显著提高其性能,因为它主要减少的是方差,而不改变偏差。

2. Python代码实现

python">class Bagging:
    def __init__(self, base_learner, n_learners):
        self.learners = [clone(base_learner) for _ in range(n_learners)]
    
    def fit(self, X, y):
        for learner in self.learners:
            examples = np.random.choice(
                np.arange(len(X)), int(len(X)), replace=True)
            
            learner.fit(X.iloc[examples, :], y.iloc[examples])

    def predict(self, X):
        preds = [learner.predict(X) for learner in self.learners]
        return np.array(preds).mean(axis=0)

3. 如何理解偏差与方差

机器学习中,偏差(Bias)和方差(Variance)是衡量模型表现的两个重要概念,它们分别衡量了模型的预测误差和模型对数据变化的敏感度。这两个概念通常用于描述模型的泛化能力和在不同数据集上的表现,理解它们有助于分析和改进模型。

3.1 偏差(Bias)

偏差是指模型的预测结果与真实值之间的差距,反映了模型在拟合训练数据时的系统性误差。简而言之,偏差衡量的是模型的假设与真实数据之间的差异。

  • 高偏差:如果模型的偏差较高,说明它的预测结果与真实值之间存在较大的系统性误差,模型的假设或结构太简单,无法捕捉到数据的复杂性,简单的模型通常会有较高的偏差。

  • 低偏差:如果模型的偏差较低,说明模型能够较好地拟合数据,预测结果接近真实值。复杂的模型通常会有较低的偏差,但可能会导致过拟合。

3.2 方差(Variance)

方差是指模型对训练数据集波动的敏感度。方差大的模型过于关注训练数据,在捕捉潜在模式的同时,也捕捉到了噪声。这种现象被称为过度拟合,即模型在训练数据上表现异常出色,但无法推广到新的、未见过的数据。方差大会导致模型过于复杂,从而降低预测的可靠性。

  • 高方差:如果模型的方差较高,说明它对训练数据集的变化非常敏感,即在不同的训练集上表现差异较大。高方差的模型容易过拟合训练数据,对训练集中的细节(包括噪声)进行了过度拟合
  • 低方差:如果模型的方差较低,说明它的预测结果在不同的训练集之间比较一致,表现出较强的泛化能力

方差的影响:

  • 高方差通常意味着过拟合(Overfitting),即模型过度拟合训练集的噪声和异常值,无法在新的数据上良好表现
  • 低方差通常意味着模型具有较好的泛化能力,但如果方差过低,可能表示模型过于简单

3.3 方差与偏差的权衡

偏差和方差之间通常存在权衡关系。在实际应用中,我们常常需要在偏差和方差之间找到一个平衡点,以获得最佳的模型性能。这种权衡被称为偏差-方差权衡(Bias-Variance Tradeoff)。

  • 高偏差、低方差: 模型过于简单,无法拟合数据的复杂性,容易导致欠拟合
  • 低偏差、高方差: 模型过于复杂,容易拟合训练数据中的噪声,导致过拟合
  • 适中偏差、适中方差: 模型能够捕捉数据的规律,既不缺乏复杂性,也不对训练数据过度敏感,通常是最佳的情况

3.4 举例说明

假设现在正在做一个分类问题,模型的目标是预测某个数据点属于哪个类别

  • 高偏差例子:使用一个线性模型(例如线性回归)来解决一个非常复杂的非线性分类问题。由于模型无法捕捉到数据的非线性关系,预测结果和真实标签之间存在很大的差异。这种情况下,模型的偏差很高,方差很低,属于欠拟合。
  • 高方差的例子:使用一个非常复杂的模型(例如深度神经网络或非常深的决策树)来拟合训练数据。虽然训练误差很小,但当你用新数据测试时,模型的表现大幅下降,因为它在训练过程中学到了过多的噪声和细节。此时,模型的方差较高,偏差较低,属于过拟合。

3.5 如何调整偏差和方差

降低偏差:

  • 增加模型的复杂度,例如使用非线性模型、增加模型的参数数量、增加更多的特征等
  • 提供更多的训练数据,帮助模型学习数据中的复杂关系
  • 减少正则化的强度,允许模型学习更多的细节

降低方差:

  • 减少模型复杂度,例如使用简单的模型(如线性回归、朴素贝叶斯等),避免过度拟合
  • 使用集成学习方法(如Bagging、Boosting等),通过多个模型的集成来减少方差
  • 增加训练数据量,以使模型能够更好地学习数据的整体规律而非细节
  • 使用正则化技术来限制模型复杂度

3.6 偏差与方差的计算

E [ ( y ^ − y ) 2 ] = ( E [ y ^ ] − y ) 2 ⏟ 偏差 2 + E [ ( y ^ − E [ y ^ ] ) 2 ] ⏟ 方差 + Var ( y ) ⏟ 噪声 \mathbb{E}[(\hat{y} - y)^2] = \underbrace{(\mathbb{E}[\hat{y}] - y)^2}_{\text{偏差}^2} + \underbrace{\mathbb{E}[(\hat{y} - \mathbb{E}[\hat{y}])^2]}_{\text{方差}} + \underbrace{\text{Var}(y)}_{\text{噪声}} E[(y^y)2]=偏差2 (E[y^]y)2+方差 E[(y^E[y^])2]+噪声 Var(y)

其中:

  • y ^ \hat{y} y^ 是模型的预测值。
  • y y y 是真实值。
  • E [ y ^ ] \mathbb{E}[\hat{y}] E[y^] 是模型预测值的期望。

4. Bagging是如何减少方差的?

方差是一个随机变量与其均值之间的平方偏差的期望值,表达式如下:
V a r ( X ) = E ( X − E ( X ) ) 2 Var(X)=E(X-E(X))^2 Var(X)=E(XE(X))2

V a r ( X ) = E ( X 2 ) − ( E ( X ) ) 2 Var(X) = E(X^2) - (E(X))^2 Var(X)=E(X2)(E(X))2

假设有多个模型的预测结果 X 1 , X 2 , X 3 . . . . . . X n X_1,X_2,X_3......X_n X1,X2,X3......Xn,每个变量的方差为 σ 2 \sigma^2 σ2。每个变量对应于一个弱学习器的预测结果,那么我们对这些弱学习器进行平均:

X ˉ = X 1 + X 2 + . . . + X n n \bar X = \frac {X_1+X_2+...+X_n}{n} Xˉ=nX1+X2+...+Xn

由于 V a r ( a X ) = a 2 V a r ( X ) Var(aX)=a^2Var(X) Var(aX)=a2Var(X),我们有:

V a r ( X ˉ ) = V a r ( X 1 + X 2 + . . . + X n n ) = 1 n 2 V a r ( X 1 + X 2 + . . . . + X n ) Var(\bar X) = Var(\frac {X_1+X_2+...+X_n}{n}) = \frac 1 {n^2}Var(X_1+X_2+....+X_n) Var(Xˉ)=Var(nX1+X2+...+Xn)=n21Var(X1+X2+....+Xn)

由于每个 X i X_i Xi 是独立的,我们可以写成:
1 n 2 V a r ( X 1 + X 2 + . . . + X n ) = 1 n 2 ( V a r ( X 1 ) + V a r ( X 2 ) + . . . + V a r ( X n ) ) = n σ 2 n 2 = σ 2 n \frac 1 {n^2}Var(X_1+X_2+...+X_n) = \frac {1}{n^2}(Var(X_1)+Var(X_2)+...+Var(X_n)) = \frac {n\sigma^2}{n^2} = \frac {\sigma^2}{n} n21Var(X1+X2+...+Xn)=n21(Var(X1)+Var(X2)+...+Var(Xn))=n2nσ2=nσ2

因此,我们有:
V a r ( X ˉ ) = σ 2 n < σ 2 Var(\bar X) = \frac {\sigma^2}{n} < \sigma^2 Var(Xˉ)=nσ2<σ2

换句话说,对一组观察值取平均可以减少方差。因此,减少方差并提高预测准确性的自然方法是从总体中抽取多个训练集,使用每个训练集构建一个单独的预测模型,然后对结果进行平均。


http://www.niftyadmin.cn/n/5817712.html

相关文章

MT6835天玑6100平台规格参数_MTK联发科安卓核心板方案定制开发

联发科MT6835平台集成了蓝牙、FM、WLAN 和 GPS 模块&#xff0c;是一个高度集成的基带平台。该芯片集成了两个 Arm Cortex-A76 内核&#xff08;运行频率高达 2.2GHz&#xff09;、六个 Arm Cortex-A55 内核&#xff08;运行频率高达 2.0 GHz&#xff09;和强大的多标准视频编解…

macOS 中,默认的 Clang 编译器和 Homebrew 安装的 GCC 都不包含 bits/stdc++.h 文件

在 macOS 中&#xff0c;默认的 Clang 编译器和 Homebrew 安装的 GCC 都不包含 bits/stdc.h 文件&#xff0c;因为它是一个 非标准 的头文件&#xff0c;主要由 MinGW 和某些 Linux 平台的 GCC 提供。 解决方案 : 手动创建 bits/stdc.h 1. 创建文件夹和文件 在你的 GCC 标准…

电脑32位和64位之区别(Difference between 32-Bit and 64 Bit Computers)

电脑32位和64位之区别 很多小伙伴还不知道电脑32位和64位是什么意思&#xff0c;今天小编就来普及一下。 32位和64位是指电脑处理器&#xff08;CPU&#xff09;和操作系统的架构&#xff0c;决定了电脑如何处理数据、存储信息、运行程序等。 32位和64位是指电脑系统中每个处…

conda 批量安装requirements.txt文件

conda 批量安装requirements.txt文件中包含的组件依赖 conda install --yes --file requirements.txt #这种执行方式&#xff0c;一遇到安装不上就整体停止不会继续下面的包安装。 下面这条命令能解决上面出现的不执行后续包的问题&#xff0c;需要在CMD窗口执行&#xff1a; 点…

SSL 证书格式和证书文件扩展名:完整指南

SSL 证书是什么以及它如何工作相当容易理解。但当涉及到在服务器上安装它时&#xff0c;有时&#xff0c;你可能觉得这是在处理火箭科学。 由于有如此多的SSL 证书格式与特定服务器要求相关&#xff0c;您更有可能感到困惑和沮丧&#xff0c;而不是从一开始就正确配置证书。但…

DuckDB:PRAGMA语句动态配置数据库行为

PRAGMA语句是DuckDB从SQLite中采用的SQL扩展。PRAGMA命令可能会改变数据库引擎的内部状态&#xff0c;并可能影响引擎的后续执行或行为。本文介绍PRAGMA命令及其典型应用场景。 DuckDB PRAGMA介绍 在 DuckDB 中&#xff0c;PRAGMA 是一种编译指示&#xff08;compiler directi…

python注意事项:range遍历越索引现象、列表边遍历边修改出现的问题

文章目录 前言一、range遍历越索引现象QS1:遍历range(2,2)会发生什么&#xff1f;不会报错&#xff0c;但是也不会遍历到任何内容QS1:遍历range(3,2)会发生什么&#xff1f;不会报错&#xff0c;但是也不会遍历到任何内容 二、列表边遍历边修改注意事项&#xff08;Java的List系…

http range 下载大文件分片

摘自&#xff1a;https://www.jianshu.com/p/32c16103715a 上传分片下载也能分 HTTP 协议范围请求允许服务器只发送 HTTP 消息的一部分到客户端。范围请求在传送大的媒体文件&#xff0c;或者与文件下载的断点续传功能搭配使用时非常有用。 检测服务器端是否支持范围请求 假…