文章目录
集成学习(Ensemble Learning)是一种通过结合多个模型的预测结果来提高整体预测性能的技术。常见的集成学习框架有:Bagging、Boosting、Stacking。每种方法都有其独特的优势和适用场景,本文主要聚焦于介绍 Bagging 算法
1. Bagging集成学习算法
1.1 简介
Bagging
全称叫做 Bootstrap aggregating,通过训练多个相同类型的基学习器,并将他们的预测结果进行集成,从而提高模型整体性能的集成学习方法。Bagging的核心思想是通过并行训练多个基学习器,每个基学习器在训练集的不同子集上进行训练,最终通过这些基学习器的预测结果进行平均(回归任务)或投票(分类任务)得到最终预测结果。
Bagging基本特点如下:
- 训练n个模型,每个模型在不同训练子集上独立训练
- 所有基学习器的预测结果进行平均(回归任务)或投票(分类任务)得到最终决策。
- 采用 bootstrap 采样(有放回采样)从原始数据集中随机抽取样本,通常每个基学习器都基于不同的数据子集进行训练。对于每个基学习器来说,大约有63%的样本会被重复采样到,而剩余的样本则可用作模型的验证集。
1.2 基本步骤
数据采样:
从原始数据中通过自助法随即有放回的抽取多个子集,每个子集的大小与原始数据相同。由于是有放回的抽样,所以每个子集可能包含重复的数据点,而一些数据点可能未被抽取训练多个基学习器:
使用不同的子集训练多个基学习器。常见的基学习器是决策树,但也通常可以是其它模型算法集成预测:
对于分类问题,通过投票的方式决定最终分类结果,对于回归问题,则通常通过取平均的方式得到最终的预测结果
1.3 Bagging优缺点
优点:
降低模型的方差
: 通过训练多个基学习器,Bagging能够有效减少模型的方差,特别是在高方差模型(如决策树)上尤为有效。通过集成多个基学习器,能够平滑预测结果,从而提高模型的稳定性,减少过拟合并行化
:Bagging中的每个基学习器都可以独立训练,因而具有很好的并行化特性。可以充分利用多核处理器和分布式计算平台,显著加快训练过程使用性强
:Bagging方法对数据的异常值和噪声具有较好的鲁棒性。由于每个基学习器只依赖于部分数据,因此个别样本的噪声不会对最终结果产生过大影响
缺点:
- 无法减少模型的偏差: 虽然Bagging能够减少方差,但对于已经有较高偏差的模型(如线性模型),Bagging无法显著提升性能,可能不会有效提高模型的整体准确性。
1.4 随机森林:Bagging的一个重要应用
随机森林(Random Forest)是Bagging算法的一个重要应用,它通过使用决策树作为基学习器并结合Bagging技术来构建集成模型。
- 随机森林不仅利用了Bagging的思想,还在每次进行bootstrap采样时,额外对特征进行随机选择。具体来说,在每个决策树的节点分裂时,随机选择一部分特征进行训练,这种做法进一步增强了不同决策树之间的差异性
- 通过引入特征的随机选择,随机森林避免了模型过度拟合,提高了决策树之间的多样性,从而增强了集成模型的性能和稳定性
1.5 总结
- 适用于高方差模型: Bagging非常适合用于那些本身方差较高、不稳定的模型(如决策树)。通过集成多个模型,能够减少过拟合,增强模型的鲁棒性
- 对噪声具有鲁棒性: 由于每个基学习器都在不同的数据子集上进行训练,因此Bagging能够有效地应对数据中的噪声和异常值
- 不适用于高偏差模型: 对于一些本身偏差较大的模型(如线性回归),Bagging无法显著提高其性能,因为它主要减少的是方差,而不改变偏差。
2. Python代码实现
class Bagging:
def __init__(self, base_learner, n_learners):
self.learners = [clone(base_learner) for _ in range(n_learners)]
def fit(self, X, y):
for learner in self.learners:
examples = np.random.choice(
np.arange(len(X)), int(len(X)), replace=True)
learner.fit(X.iloc[examples, :], y.iloc[examples])
def predict(self, X):
preds = [learner.predict(X) for learner in self.learners]
return np.array(preds).mean(axis=0)
3. 如何理解偏差与方差
在机器学习中,偏差(Bias)和方差(Variance)是衡量模型表现的两个重要概念,它们分别衡量了模型的预测误差和模型对数据变化的敏感度。这两个概念通常用于描述模型的泛化能力和在不同数据集上的表现,理解它们有助于分析和改进模型。
3.1 偏差(Bias)
偏差是指模型的预测结果与真实值之间的差距,反映了模型在拟合训练数据时的系统性误差。简而言之,偏差衡量的是模型的假设与真实数据之间的差异。
-
高偏差:如果模型的偏差较高,说明它的预测结果与真实值之间存在较大的系统性误差,模型的假设或结构太简单,无法捕捉到数据的复杂性,简单的模型通常会有较高的偏差。
-
低偏差:如果模型的偏差较低,说明模型能够较好地拟合数据,预测结果接近真实值。复杂的模型通常会有较低的偏差,但可能会导致过拟合。
3.2 方差(Variance)
方差是指模型对训练数据集波动的敏感度。方差大的模型过于关注训练数据,在捕捉潜在模式的同时,也捕捉到了噪声。这种现象被称为过度拟合,即模型在训练数据上表现异常出色,但无法推广到新的、未见过的数据。方差大会导致模型过于复杂,从而降低预测的可靠性。
- 高方差:如果模型的方差较高,说明它对训练数据集的变化非常敏感,即在不同的训练集上表现差异较大。高方差的模型容易过拟合训练数据,对训练集中的细节(包括噪声)进行了过度拟合
- 低方差:如果模型的方差较低,说明它的预测结果在不同的训练集之间比较一致,表现出较强的泛化能力
方差的影响:
- 高方差通常意味着过拟合(Overfitting),即模型过度拟合训练集的噪声和异常值,无法在新的数据上良好表现
- 低方差通常意味着模型具有较好的泛化能力,但如果方差过低,可能表示模型过于简单
3.3 方差与偏差的权衡
偏差和方差之间通常存在权衡关系。在实际应用中,我们常常需要在偏差和方差之间找到一个平衡点,以获得最佳的模型性能。这种权衡被称为偏差-方差权衡(Bias-Variance Tradeoff)。
- 高偏差、低方差: 模型过于简单,无法拟合数据的复杂性,容易导致欠拟合
- 低偏差、高方差: 模型过于复杂,容易拟合训练数据中的噪声,导致过拟合
- 适中偏差、适中方差: 模型能够捕捉数据的规律,既不缺乏复杂性,也不对训练数据过度敏感,通常是最佳的情况
3.4 举例说明
假设现在正在做一个分类问题,模型的目标是预测某个数据点属于哪个类别
- 高偏差例子:使用一个线性模型(例如线性回归)来解决一个非常复杂的非线性分类问题。由于模型无法捕捉到数据的非线性关系,预测结果和真实标签之间存在很大的差异。这种情况下,模型的偏差很高,方差很低,属于欠拟合。
- 高方差的例子:使用一个非常复杂的模型(例如深度神经网络或非常深的决策树)来拟合训练数据。虽然训练误差很小,但当你用新数据测试时,模型的表现大幅下降,因为它在训练过程中学到了过多的噪声和细节。此时,模型的方差较高,偏差较低,属于过拟合。
3.5 如何调整偏差和方差
降低偏差:
- 增加模型的复杂度,例如使用非线性模型、增加模型的参数数量、增加更多的特征等
- 提供更多的训练数据,帮助模型学习数据中的复杂关系
- 减少正则化的强度,允许模型学习更多的细节
降低方差:
- 减少模型复杂度,例如使用简单的模型(如线性回归、朴素贝叶斯等),避免过度拟合
- 使用集成学习方法(如Bagging、Boosting等),通过多个模型的集成来减少方差
- 增加训练数据量,以使模型能够更好地学习数据的整体规律而非细节
- 使用正则化技术来限制模型复杂度
3.6 偏差与方差的计算
E [ ( y ^ − y ) 2 ] = ( E [ y ^ ] − y ) 2 ⏟ 偏差 2 + E [ ( y ^ − E [ y ^ ] ) 2 ] ⏟ 方差 + Var ( y ) ⏟ 噪声 \mathbb{E}[(\hat{y} - y)^2] = \underbrace{(\mathbb{E}[\hat{y}] - y)^2}_{\text{偏差}^2} + \underbrace{\mathbb{E}[(\hat{y} - \mathbb{E}[\hat{y}])^2]}_{\text{方差}} + \underbrace{\text{Var}(y)}_{\text{噪声}} E[(y^−y)2]=偏差2 (E[y^]−y)2+方差 E[(y^−E[y^])2]+噪声 Var(y)
其中:
- y ^ \hat{y} y^ 是模型的预测值。
- y y y 是真实值。
- E [ y ^ ] \mathbb{E}[\hat{y}] E[y^] 是模型预测值的期望。
4. Bagging是如何减少方差的?
方差是一个随机变量与其均值之间的平方偏差的期望值,表达式如下:
V
a
r
(
X
)
=
E
(
X
−
E
(
X
)
)
2
Var(X)=E(X-E(X))^2
Var(X)=E(X−E(X))2
V a r ( X ) = E ( X 2 ) − ( E ( X ) ) 2 Var(X) = E(X^2) - (E(X))^2 Var(X)=E(X2)−(E(X))2
假设有多个模型的预测结果 X 1 , X 2 , X 3 . . . . . . X n X_1,X_2,X_3......X_n X1,X2,X3......Xn,每个变量的方差为 σ 2 \sigma^2 σ2。每个变量对应于一个弱学习器的预测结果,那么我们对这些弱学习器进行平均:
X ˉ = X 1 + X 2 + . . . + X n n \bar X = \frac {X_1+X_2+...+X_n}{n} Xˉ=nX1+X2+...+Xn
由于 V a r ( a X ) = a 2 V a r ( X ) Var(aX)=a^2Var(X) Var(aX)=a2Var(X),我们有:
V a r ( X ˉ ) = V a r ( X 1 + X 2 + . . . + X n n ) = 1 n 2 V a r ( X 1 + X 2 + . . . . + X n ) Var(\bar X) = Var(\frac {X_1+X_2+...+X_n}{n}) = \frac 1 {n^2}Var(X_1+X_2+....+X_n) Var(Xˉ)=Var(nX1+X2+...+Xn)=n21Var(X1+X2+....+Xn)
由于每个
X
i
X_i
Xi 是独立的,我们可以写成:
1
n
2
V
a
r
(
X
1
+
X
2
+
.
.
.
+
X
n
)
=
1
n
2
(
V
a
r
(
X
1
)
+
V
a
r
(
X
2
)
+
.
.
.
+
V
a
r
(
X
n
)
)
=
n
σ
2
n
2
=
σ
2
n
\frac 1 {n^2}Var(X_1+X_2+...+X_n) = \frac {1}{n^2}(Var(X_1)+Var(X_2)+...+Var(X_n)) = \frac {n\sigma^2}{n^2} = \frac {\sigma^2}{n}
n21Var(X1+X2+...+Xn)=n21(Var(X1)+Var(X2)+...+Var(Xn))=n2nσ2=nσ2
因此,我们有:
V
a
r
(
X
ˉ
)
=
σ
2
n
<
σ
2
Var(\bar X) = \frac {\sigma^2}{n} < \sigma^2
Var(Xˉ)=nσ2<σ2
换句话说,对一组观察值取平均可以减少方差。因此,减少方差并提高预测准确性的自然方法是从总体中抽取多个训练集,使用每个训练集构建一个单独的预测模型,然后对结果进行平均。