Bootstrap

树模型(六):XGBoost

0 XGB vs GBDT

  • 正则项:在使用CART作为基分类器时,XGBoost显式地加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。
  • 二阶导数:GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代价函数进行二阶泰勒展开,可以同时使用一阶和二阶导数。
  • 基分类器:传统的GBDT采用CART作为基分类器,XGBoost支持多种类型的基分类器,比如线性分类器。
  • 列采样:传统的GBDT在每轮迭代时使用全部的数据,XGBoost则采用了与随机森林相似的策略,支持对数据进行采样,支持列抽样,不仅能降低过拟合,还能减少计算,这也是xgboost异于传统gbdt的一个特性。
  • 缺失值处理:传统的GBDT没有设计对缺失值进行处理,XGBoost可以自动学习出它的分裂方向。XGBoost对于确实值能预先学习一个默认的分裂方向。
  • Shrinkage(缩减),相当于学习速率(xgboost中的eta)。xgboost在进行完一次迭代后,会将叶子节点的权重乘上该系数,主要是为了削弱每棵树的影响,让后面有更大的学习空间。实际应用中,一般把eta设置得小一点,然后迭代次数设置得大一点。(补充:传统GBDT的实现也有学习速率)

1 加性模型

【图解】

首先,XGBoost与GBDT一样,也是boosting模型。仅对loss及正则做了修改,predict及lr相关不变。对于boosting decision tree, 下面这张图片可以很好的表达出来

输入样本的最终预测值等于各个树的预测值之和

【文字描述】

2 Object Function

主要包括损失函数项和正则项,在2.1和2.2节会分别详细介绍

2.1 损失函数项

2.1.1 定义

2.1.2 MSE Loss

假如我们使用的损失函数是MSE,那么上述表达式会变成这个样子:

这个式子非常漂亮,因为它含有 f t ( x i ) f_{t}(x_{i}) ft(xi)的一次式和二次式,而且一次式项的系数是残差。你可能好奇,为什么有一次式和二次式就漂亮,因为它会对我们后续的优化提供很多方便,继续前进你就明白了

注意 f t ( x i ) f_{t}(x_{i}) ft(xi)是什么?它其实就是 f t f_{t} ft的某个叶子节点的值。之前我们提到过,叶子节点的值是可以作为模型的参数的

2.1.3 二阶导的由来

首先我们需要明确一个概念, 我们的boosting每一轮迭代是在优化什么呢? 换句话说我们在用损失函数 l l l在干什么呢? 其实我们看Boosting的框架, 无论是GBDT还是Adaboost, 其在每一轮迭代中, 根本没有理会损失函数具体是什么, 仅仅用到了损失函数的一阶导数。仅仅用一阶导数的问题就是, 我们根本无法保证我们找到的是全局最优。除非问题本身 f ( x ) f(x) f(x)是强凸的 (convex)而且最好是smooth的。每次迭代相当于就是最优化负梯度。即下式中的 ▽ f ( x i ) \bigtriangledown f(x^{i}) f(xi)
, 因为是负梯度所以前面要加负号, c c c代表学习率。

x c ( i ) = x ( i ) − c ▽ f ( x i ) x^{(i)}_{c} = x^{(i)} - c\bigtriangledown f(x^{i}) xc(i)=x(i)cf(xi)

有没有感觉这个公式形式很熟悉, 是不是就是一般常见的linear regression 的 stochastic 梯度更新公式。既然GBDT用的是Stochastic Gradient Descent, 我们回想一下, 是不是还有别的梯度更新的方式, 这时, 牛顿法 Newton’s method就出现了。可以说, XGBoost是用了牛顿法进行的梯度更新。仅仅用一阶导数的问题就是, 我们根本无法保证我们找到的是全局最优。

2.1.4 牛顿法和二阶泰勒

2.1.5 示例

假设我们正在优化第11棵CART树,也就是说前10棵 CART树已经确定了。这10棵树对样本( X i X_{i} Xi, y i y_{i} yi=1)的预测值是 y i ^ = − 1 \hat{y_{i}}=-1 yi^=1,假设我们现在是做分类,我们的损失函数是

L ( θ ) = ∑ i [ y i l n ( 1 + e − y ^ i ) + ( 1 − y i ) l n ( 1 + e − y ^ i ) ] L(\theta) = \sum_{i}^{}[y_{i}ln(1+e^{-\hat{y}_{i}}) + (1-y{i})ln(1+e^{-\hat{y}_{i}})] L(θ)=i[yiln(1+ey^i)+(1yi)ln(1+ey^i)]

y i y_{i} yi=1时,损失函数变成了

l n ( 1 + e − y ^ i ) ln(1+e^{-\hat{y}_{i}}) ln(1+ey^i)

我们可以求出这个损失函数对于 y i ^ \hat{y_{i}} yi^的梯度,如下所示:

− 1 ∗ 1 1 + e − y ^ i ∗ e − y ^ i = − e − y ^ i 1 + e − y ^ i -1 * \frac{1}{1+e^{-\hat{y}_{i}}} * e^{-\hat{y}_{i}} = \frac{-e^{-\hat{y}_{i}}}{1+e^{-\hat{y}_{i}}} 11+ey^i1ey^i=1+ey^iey^i

y i ^ \hat{y_{i}} yi^=-1代入上面的式子,计算得到-0.27。这个-0.27就是 g i g_{i} gi。该值是负的,也就是说,如果我们想要减小这10棵树在该样本点上的预测损失,我们应该沿着梯度的反方向去走,也就是要增大 y i ^ \hat{y_{i}} yi^的值,使其趋向于正,因为我们的 y i y_{i} yi=1就是正的

【6】QA:在优化第t棵树时,有多少个gi和hi要计算? 嗯,没错就是各有N个,N是训练样本的数量。如果有10万样本,在优化第t棵树时,就需要计算出个10万个gi和hi。感觉好像很麻烦是不是?但是你再想一想,这10万个gi之间是不是没有啥关系?是不是可以并行计算呢?聪明的你想必再一次感受到了,为什么xgboost会辣么快!

2.2 正则项

2.2.1 定义

对于f的定义做一下细化,把树拆分成结构部分q叶子权重部分w。下图是一个具体的例子。结构函数q把输入映射到叶子的索引号上面去,而w给定了每个索引号对应的叶子分数是什么

定义这个复杂度包含了一棵树里面节点的个数,以及每个树叶子节点上面输出分数的L2模平方。当然这不是唯一的一种定义方式,不过这一定义方式学习出的树效果一般都比较不错。下图还给出了复杂度计算的一个例子

注:方框部分在最终的模型公式中控制这部分的比重,对应模型参数中的lambda ,gamma

2.2.2 作用

正则项的作用,可以从几个角度去解释

  • 通过偏差方差分解去解释
  • PAC-learning泛化界解释
  • Bayes先验解释,把正则当成先验

从Bayes角度来看,正则相当于对模型参数引入先验分布:

3 目标函数求解

3.1 推导过程

经过上面的拆解,可以把目标函数进行如下改写,其中I被定义为每个叶子上面样本集合 I j = { i ∣ q ( x i ) = j } I_{j} = \left \{ i|q(x_{i})=j \right \} Ij={iq(xi)=j},其中g是一阶导数,h是二阶导数,n为样本数,T为叶子节点数,w为待求解权重

这一个目标包含了T个相互独立的单变量二次函数。我们可以定义

最终公式可以化简为

通过对 w j w_{j} wj求导等于0,可以得到

w j ∗ = − G j H j + λ w^{*}_{j} = -\frac{G_{j}}{H_{j}+\lambda} wj=Hj+λGj

然后把 w j w_{j} wj最优解代入得到:

3.2 理解obj*

它表示了这棵树的结构有多好,值越小,代表这样结构越好!也就是说,它是衡量第t棵CART树的结构好坏的标准。注意注意注意~,这个值仅仅是用来衡量结构的好坏的,与叶子节点的值可是无关的。为什么?请再仔细看一下obj的推导过程。obj只和Gj和Hj和T有关,而它们又只和树的结构(q(x))有关,与叶子节点的值可是半毛关系没有。如下图所示:

4 寻找最佳分裂点

那么对于决策树的单个节点,该如何进行划分呢?XGBoost与之前的GBDT、RF、ID3等树模型的计算方法都不一样,但是有一个共性就是计算分裂增益,通过比较分裂增益选择特征的切分点。

通过上式就可以计算出分裂的增益,然后确定分裂方式。关键是如何计算出最优分裂点呢?

4.1 贪心法

遍历所有特征的所有可能的分割点,计算Gain值,选取最大的 (Feature,label) 去分裂。

为了达到这个目标,split finding算法会在所有特征 (features) 上,枚举所有可能的划分(splits)。为了更高效,该算法必须首先根据特征值对数据进行排序(原因:可看下方伪代码,是为了快速计算出每一个候选分裂点的Gain),以有序的方式访问数据来枚举Gain公式中的结构得分 (structure score) 的梯度统计 (gradient statistics)

4.2 近似算法

4.2.1 算法理论

对于每个特征,只考察分位点,减少计算复杂度。

该算法会首先根据特征分布的百分位数 (percentiles of feature distribution),提出候选划分点 (candidate splitting points)。接着,该算法将连续型特征映射到由这些候选点划分的分桶(buckets) 中,聚合统计信息,基于该聚合统计找到在 proposal 间的最优解。

  • Global:学习每棵树前,提出候选切分点;
  • Local:每次分裂前,重新提出候选切分点;

归纳:

  • 全局变量建议( global variant proposes )需要更多数据点,速度更快。
  • 局部变量建议(local variant re-proposes)适合更深的树木,更准确。

4.2.2 近似算法举例:三分位数

4.2.3 实际分裂方式

实际上XGBoost不是简单地按照样本个数进行分位,而是以二阶导数值作为权重(Weighted Quantile Sketch)。

一个例子如下:

要切分为3个,总和为1.8,因此第1个在0.6处,第2个在1.2处

【Q1】为什么需要加权
【A1】现在我们回到Xgboost中,在建立第 i i i棵树的时候已经知道数据集在前面 i − 1 i-1 i1棵树的误差,因此采样的时候是需要考虑误差,对于误差大的特征值采样粒度要加大,误差小的特征值采样粒度可以减小,也就是说采样的样本是需要权重的。
【Q2】为什么用 h i h_{i} hi加权
【A2】公式推导重新审视目标函数,通过配方可以得到:

因此可以将该目标还是看作是关于标签为 − g i / h i -g_{i}/h_{i} gi/hi和权重为 h i h_{i} hi的平方误差形式。 h i h_{i} hi为样本的二阶导数。(注:源论文中公式(2)的地方是错误的,它写成了标签为 g i / h i g_{i}/h_{i} gi/hi

【A2】直观感受

【数学定义】

【引申】
对于大数据集来说,要找到满足该原则 (criteria) 的候选集是不容易的。当每个样本实例都具有相同的权重时,有一种已经存在的算法可以解决该问题:分位数略图 (quantile sketch)。因而,大多数已存在的近似算法,或者会重新排序来对数据的一个随机子集进行排序(有一定的失败率),或者是启发式的 (heuristics),没有理论保障。

为了解决该问题,XGBoost引入了一种新的分布式加权分位数略图算法 (distributed weighted quantile sketch algorithm),使用一种可推导证明的有理论保证的方式,来处理加权数据。总的思想是,提出了一个数据结构,它支持merge和prune操作,每个操作证明是可维持在一个固定的准确度级别

【更多细节】可以参考 Xgboost近似分位数算法

4.3 稀疏特征分裂

稀疏值定义:1)缺失 2)类别one-hot编码 3)大量0值
第三种是针对稀疏特征的分裂方式,XGBoost可以自动学习稀疏特征的分裂方向:

Sparsity Aware Split Finding算法会对比将特征值为missing的样本分配到左叶子结点和右叶子结点的两种情形,还可以为缺失值或者指定的值指定默认分裂方向,这中方式可以大大提升算法的效率,原paper中给出了具体的量化:50倍。 这种方式对性能的提升确实是非常可观的。

5 其他细节

5.1 缺失值处理

  • 在训练阶段寻找分裂点的时候,计算的分裂增益不包含缺失值样本。在逻辑实现上,为了保证完备性,会分别将缺失该特征值的样本分配到左叶子结点和右叶子结点的两种情形,计算增益后选择增益大的方向归类含缺失值样本
  • 在预测阶段,如果训练集没有缺失值而测试集出现缺失值,则要为缺失值(或者指定的值未出现的值)指定分支的默认方向,预测时自动将缺失值的划分到这一分支。

5.2 剪枝策略

  • 前剪枝
    • 当最优分裂点对应的增益值为负时停止分裂
    • 但是这也会存在问题,即将来的某个时刻能够获取更高的增益
  • 后剪枝
    • 将决策树增长到它的最大深度,递归的进行剪枝,剪去那些使得增益值为负值的叶子节点

5.3 目标函数 vs 启发式

当讨论决策树时,它通常是启发式的,大多数启发式可以很好地映射到目标函数

  • 信息增益 -> 训练误差
  • 剪枝 -> 按照树节点的数目定义的正则化项
  • 最大深度 -> 限制函数空间
  • 对叶子值进行平滑操作 -> 叶子权重的L2正则化项

5.4 Shrinkage和列子抽样(column subsampling)

除了正则化目标函数外,还会使用两种额外的技术来进一步阻止overfitting。

  • 第一种技术是Friedman介绍的Shrinkage。Shrinkage会在每一步tree boosting时,会将新加入的weights通过一个因子ηη进行缩放。与随机优化中的learning rate相类似,对于用于提升模型的新增树(future trees),shrinkage可以减少每棵单独的树、以及叶子空间(leaves space)的影响。
  • 第二个技术是列特征子抽样(column feature subsampling)。该技术也会在RandomForest中使用,根据用户的反馈,比起传统的行子抽样(row sub-sampling:同样也支持),使用列子抽样可以阻止overfitting。列子抽样的使用可以加速并行算法的计算。

5.5 特征选择

xgboost get_fscore 判断特征重要程度的三种指标

  • ‘weight’ - the number of times a feature is used to split the data across all trees.
  • ‘gain’ - the average gain of the feature when it is used in trees.
  • ‘cover’ - the average coverage of the feature when it is used in trees.

6 系统设计

6.1 Column Block(用于并行学习)

在建树的过程中,最耗时是找最优的切分点,而这个过程中,最耗时的部分是将数据排序。为了减少排序的时间,提出Block结构存储数据。

  • Block中的数据以稀疏格式CSC进行存储
  • Block中的特征进行排序(不对缺失值排序)— 按列切开,升序存放,分布式计算分裂点
  • Block 中特征还需存储指向样本的索引,这样才能根据特征的值来取梯度。
  • 一个Block中存储一个或多个特征的值

6.2 Cache-aware Access

使用Block结构的一个缺点是取梯度的时候,是通过索引来获取的,而这些梯度的获取顺序是按照特征的大小顺序的。这将导致非连续的内存访问,可能使得CPU cache缓存命中率低,从而影响算法效率

缓存优化方法

  • 预取数据到buffer中(非连续->连续),再统计梯度信息
  • 调节块的大小

6.3 Blocks for Out-of-core Computation

因为XGBoost是要设计一个高效使用资源的系统,所以各种机器资源都要用上,除了CPU和内存之外,磁盘空间也可以利用来处理数据。为了实现这个功能,我们可以将数据分成多个块并将每个块储存在磁盘上。

在计算过程中,使用独立的线程将Block预提取到主内存缓冲区,这样子数据计算和磁盘读取可以同步进行,但由于IO非常耗时,所以还有2种技术来改善这种核外计算:

  • Block Compression: 块压缩,并当加载到主内存时由独立线程动态解压缩;
  • Block Sharding: 块分片,即将数据分片到多个磁盘,为每个磁盘分配一个线程,将数据提取到内存缓冲区,然后每次训练线程的时候交替地从每个缓冲区读取数据,有助于在多个磁盘可用时,增加读取的吞吐量。

7 推导示意图

8 手动计算还原XGBoost流程

8.1 数据及模型参数

以一个简单的UCI数据集,一步一步的演算整个xgboost的过程。数据集如下:

这里为了简单起见,树的深度设置为3(max_depth=3),树的颗数设置为2(num_boost_round=2),学习率为0.1(eta=0.1)。另外再设置两个正则的参数, λ = 1 , γ = 0 \lambda = 1, \gamma = 0 λ=1,γ=0,损失函数选择logloss

8.2 一阶/二阶导数

由于后面需要用到logloss的一阶导数以及二阶导数,这里先简单推导一下:

L ( y i , y ^ i ) = ∑ i [ y i l n ( 1 + e − y ^ i ) + ( 1 − y i ) l n ( 1 + e − y ^ i ) ] L(y_{i},\hat{y}_{i}) = \sum_{i}^{}[y_{i}ln(1+e^{-\hat{y}_{i}}) + (1-y{i})ln(1+e^{-\hat{y}_{i}})] L(yi,y^i)=i[yiln(1+ey^i)+(1yi)ln(1+ey^i)]

两边对 y i ^ \hat{y_{i}} yi^求一阶导数, 其中:

在一阶导的基础上再求一次可得二阶导(其实就是sigmod函数求导):

L ′ ′ ( y i , y i ^ ) = y i , p r e d ∗ ( 1 − y i , p r e d ) L^{''}(y_{i},\hat{y_{i}}) = y_{i,pred} * (1 - y_{i,pred}) L(yi,yi^)=yi,pred(1yi,pred)

所以样本的一阶导数值为:

g i = y i , p r e d − y i (3) g_{i} = y_{i,pred} - y_{i} \tag 3 gi=yi,predyi(3)

二阶导数值为:

h i = y i , p r e d ∗ ( 1 − y i , p r e d ) (4) h_{i} = y_{i,pred} * (1-y_{i,pred}) \tag 4 hi=yi,pred(1yi,pred)(4)

8.3 第一棵树

建树的时候从根节点开始(Top-down greedy),在根节点上的样本有ID1~ID15。那么回顾xgboost的算法流程,我们需要在根节点处进行分裂,分裂的时候需要计算如下公式:

G a i n = 1 2 [ G L 2 H L + λ + G R 2 H R + λ − ( G L + G R ) 2 H L + H R + λ ] − γ Gain = \frac{1}{2} [\frac{G^{2}_{L}}{H_{L}+\lambda} + \frac{G^{2}_{R}}{H_{R}+\lambda} - \frac{(G_{L}+G_{R})^2}{H_{L}+H_{R}+\lambda}] - \gamma Gain=21[HL+λGL2+HR+λGR2HL+HR+λ(GL+GR)2]γ

含义是:在结点处把样本分成左子结点和右子结点两个集合。分别求两个集合的 G L 、 H L 、 G R 、 G R G_{L}、H_{L}、G_{R}、G_{R} GLHLGRGR,然后计算增益Gain

8.3.1 计算g和h

而这里,我其实可以先计算每个样本的一阶导数值和二阶导数值,即按照式子(3)和(4)计算,但是这里你可能碰到了一个问题,那就是第一颗树的时候每个样本的预测的概率 y i , p r e d y_{i,pred} yi,pred是多少?这里和GBDT一样,应该说和所有的Boosting算法一样,都需要一个初始值。而在xgboost里面,对于分类任务只需要初始化为(0,1)中的任意一个数都可以。具体来说就是参数base_score。(其默认值是0.5)

(值得注意的是base_score是一个经过sigmod映射的值,可以理解为一个概率值,提这个原因是后面建第二颗树会用到,需要注意这个细节)

这里我们也设base_score=0.5。然后我们就可以计算每个样本的一阶导数值和二阶导数值了。具体如下表:

比如说对于ID=1样本, 由上面得到的一阶二阶导公式(3)(4)可得:

g 1 = y 1 , p r e d − y 1 = 0.5 − 0 = 0.5 g_{1} = y_{1,pred} - y_{1} = 0.5 - 0 = 0.5 g1=y1,predy1=0.50=0.5

h 1 = y 1 , p r e d − y 1 = 0.5 ∗ ( 1 − 0.5 ) = 0.25 h_{1} = y_{1,pred} - y_{1} = 0.5 * (1-0.5) = 0.25 h1=y1,predy1=0.5(10.5)=0.25

8.3.2 计算Gain及分裂点

那么把样本如何分成两个集合呢?这里就是上面说到的选取一个最佳的特征以及分裂点使得Gain最大。
比如说对于特征x1,一共有[1,2,3,6,7,8,9,10]8种取值(注意上表的ID不代表取值)。可以得到以下这么多划分方式。

【1】以1为划分时 x 1 < 1 {x_{1} < 1} x1<1:

左子节点包含的样本: I L = [ ] I_{L} = [] IL=[]
右子节点包含的样本: I R = [ 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 ] I_{R} = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15] IR=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]

那么左子节点为空, G L = 0 G_{L} = 0 GL=0 H L = 0 H_{L} = 0 HL=0
右子节点的一阶导数和: G R = ∑ i ∈ I R g i = ( 0.5 + 0.5 + … … − 0.5 ) = − 1.5 G_{R} = \sum_{i∈I_{R}}^{} g_{i} = (0.5+0.5+……-0.5) = -1.5 GR=iIRgi=(0.5+0.5+0.5)=1.5
右子节点的二阶导数和: H R = ∑ i ∈ I R h i = ( 0.25 + 0.25 + … … + 0.25 ) = 3.75 H_{R} = \sum_{i∈I_{R}}^{} h_{i} = (0.25+0.25+……+0.25) = 3.75 HR=iIRhi=(0.25+0.25++0.25)=3.75

最后我们在计算一下增益Gain,得到Gain=0

计算出来发现Gain=0,不用惊讶,因为左子结点为空,也就是这次分裂把全部样本都归到右子结点,这个和没分裂有啥区别?所以,分裂的时候每个结点至少有一个样本。

在上面以1为划分标准时,我们注意到一阶和二阶导是直接用的上表提前计算好的,而不用重新计算,样本被分到哪部分,其已经计算好的一阶和二阶导数就直接累积到那部分即可

【2】以2为划分时 x 1 < 2 x_{1}<2 x1<2

左子节点包含的样本: I L = [ 1 , 4 ] I_{L} = [1,4] IL=[1,4]
右子节点包含的样本: I R = [ 2 , 3 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 ] I_{R} = [2,3,5,6,7,8,9,10,11,12,13,14,15] IR=[2,3,5,6,7,8,9,10,11,12,13,14,15]

左子节点的一阶导数和: G L = ∑ i ∈ I L g i = ( 0.5 − 0.5 ) = 0 G_{L} = \sum_{i∈I_{L}}^{} g_{i} = (0.5-0.5) = 0 GL=iILgi=(0.50.5)=0
左子节点的二阶导数和: H L = ∑ i ∈ I L h i = ( 0.25 + 0.25 ) = 0.5 H_{L} = \sum_{i∈I_{L}}^{} h_{i} = (0.25+0.25) = 0.5 HL=iILhi=(0.25+0.25)=0.5

右子节点的一阶导数和: G R = ∑ i ∈ I R g i = − 1.5 G_{R} = \sum_{i∈I_{R}}^{} g_{i} = -1.5 GR=iIRgi=1.5
右子节点的二阶导数和: H R = ∑ i ∈ I R h i = 3.25 H_{R} = \sum_{i∈I_{R}}^{} h_{i} = 3.25 HR=iIRhi=3.25

G a i n = 1 2 [ G L 2 H L + λ + G R 2 H R + λ − ( G L + G R ) 2 H L + H R + λ ] − γ = 0.0557275541796 Gain = \frac{1}{2} [\frac{G^{2}_{L}}{H_{L}+\lambda} + \frac{G^{2}_{R}}{H_{R}+\lambda} - \frac{(G_{L}+G_{R})^2}{H_{L}+H_{R}+\lambda}] - \gamma = 0.0557275541796 Gain=21[HL+λGL2+HR+λGR2HL+HR+λ(GL+GR)2]γ=0.0557275541796

【3】以3为划分时( x 1 < 3 x_{1}<3 x1<3

左子节点包含的样本: I L = [ 1 , 2 , 4 , 5 ] I_{L} = [1,2,4,5] IL=[1,2,4,5]
右子节点包含的样本: I R = [ 3 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 13 , 14 , 15 ] I_{R} = [3,6,7,8,9,10,11,12,13,14,15] IR=[3,6,7,8,9,10,11,12,13,14,15]

左子节点的一阶导数和: G L = ∑ i ∈ I L g i = 0 G_{L} = \sum_{i∈I_{L}}^{} g_{i} = 0 GL=iILgi=0
左子节点的二阶导数和: H L = ∑ i ∈ I L h i = 1 H_{L} = \sum_{i∈I_{L}}^{} h_{i} = 1 HL=iILhi=1

右子节点的一阶导数和: G R = ∑ i ∈ I R g i = − 1.5 G_{R} = \sum_{i∈I_{R}}^{} g_{i} = -1.5 GR=iIRgi=1.5
右子节点的二阶导数和: H R = ∑ i ∈ I R h i = 2.75 H_{R} = \sum_{i∈I_{R}}^{} h_{i} = 2.75 HR=iIRhi=2.75

G a i n = 1 2 [ G L 2 H L + λ + G R 2 H R + λ − ( G L + G R ) 2 H L + H R + λ ] − γ = 0.12631789474 Gain = \frac{1}{2} [\frac{G^{2}_{L}}{H_{L}+\lambda} + \frac{G^{2}_{R}}{H_{R}+\lambda} - \frac{(G_{L}+G_{R})^2}{H_{L}+H_{R}+\lambda}] - \gamma = 0.12631789474 Gain=21[HL+λGL2+HR+λGR2HL+HR+λ(GL+GR)2]γ=0.12631789474

其他的值[6,7,8,9,10]类似,计算归总到下面表:

从上表我们可以到,如果特征x1以x1<10分裂时可以得到最大的增益0.615205。

8.3.3 下一个特征

按照算法的流程,这个时候需要遍历下一个特征x2,对于特征x2也是重复上面这些步骤,可以得到类似的表如下:

可以看到,以x2特征来分裂时,最大的增益是0.2186<0.615205。所以在根节点处,以x1<10来进行分裂

8.3.4 分裂第二层

由于我设置的最大深度是3,此时只有1层,所以还需要继续往下分裂。

左子节点的样本集合: I L = [ 1 , 2 , 3 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 14 , 15 ] I_{L} = [1,2,3,5,6,7,8,9,10,11,12,14,15] IL=[1,2,3,5,6,7,8,9,10,11,12,14,15]
右子节点的样本集合: I R = [ 13 ] I_{R} = [13] IR=[13]

右子节点此时只剩一个样本,不需要分裂了,也就是已经是叶子结点。可以计算其对应的叶子结点值了,按照如下公式:

w ∗ = − G j H j + λ w^{*} = -\frac{G_{j}}{H_{j}+\lambda} w=Hj+λGj

有:

w 1 = − G R H R + λ = − g 13 h 13 + 1 = − 0.5 0.25 + 1 = − 0.4 w_{1} = -\frac{G_{R}}{H_{R}+\lambda} = -\frac{g_{13}}{h_{13}+1} = -\frac{0.5}{0.25+1} = -0.4 w1=HR+λGR=h13+1g13=0.25+10.5=0.4

那么下面就是对左子结点 I L I_{L} IL进行分裂。分裂的时候把此时的结点看成根节点,其实就是循环上面的过程,同样也是需要遍历所有特征 ( x 1 , x 2 ) (x_{1},x_{2}) (x1,x2)的所有取值作为分裂点,选取增益最大的点。

这里为了说的比较清晰,也重复一下上面的过程:

此时样本有: I = [ 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 14 , 15 ] I = [1,2,3,4,5,6,7,8,9,10,11,12,14,15] I=[1,2,3,4,5,6,7,8,9,10,11,12,14,15], 注意, 此时已经没有ID为13的样本了,因为已经被上一层树的右子节点分出去了

先考虑特征 x 1 x_{1} x1,此时 x 1 x_{1} x1的取值有[1, 2, 3, 6, 7, 8, 9]

注意, 现在用的还是之前求出来的一阶二阶导, 并没有重新计算, 因为此时是在构建当前这棵树的第二层, 而不是构建新树, 在构建新树时才会

【1】以1为分裂Gain=0
【2】以2为划分时

左子节点包含的样本: I L = [ 1 , 4 ] I_{L} = [1,4] IL=[1,4]
右子节点包含的样本: I R = [ 2 , 3 , 5 , 6 , 7 , 8 , 9 , 10 , 11 , 12 , 14 , 15 ] I_{R} = [2,3,5,6,7,8,9,10,11,12,14,15] IR=[2,3,5,6,7,8,9,10,11,12,14,15]

左子节点的一阶导数和: G L = ∑ i ∈ I L g i = ( 0.5 − 0.5 ) = 0 G_{L} = \sum_{i∈I_{L}}^{} g_{i} = (0.5-0.5) = 0 GL=iILgi=(0.50.5)=0
左子节点的二阶导数和: H L = ∑ i ∈ I L h i = ( 0.25 + 0.25 ) = 0.5 H_{L} = \sum_{i∈I_{L}}^{} h_{i} = (0.25+0.25) = 0.5 HL=iILhi=(0.25+0.25)=0.5

右子节点的一阶导数和: G R = ∑ i ∈ I R g i = − 2 G_{R} = \sum_{i∈I_{R}}^{} g_{i} = -2 GR=iIRgi=2
右子节点的二阶导数和: H R = ∑ i ∈ I R h i = 3 H_{R} = \sum_{i∈I_{R}}^{} h_{i} = 3 HR=iIRhi=3

G a i n = 1 2 [ G L 2 H L + λ + G R 2 H R + λ − ( G L + G R ) 2 H L + H R + λ ] − γ = 0.111111111 Gain = \frac{1}{2} [\frac{G^{2}_{L}}{H_{L}+\lambda} + \frac{G^{2}_{R}}{H_{R}+\lambda} - \frac{(G_{L}+G_{R})^2}{H_{L}+H_{R}+\lambda}] - \gamma = 0.111111111 Gain=21[HL+λGL2+HR+λGR2HL+HR+λ(GL+GR)2]γ=0.111111111

其他的同理,最后所有值都遍历完后可以得到下表:

可以看到,x1选择x<3时能够获得最大的增益0.2539。

同理,我们对x2再次遍历可以得到下表:

可以看到 x 2 x_{2} x2 x 2 < 2 x_{2}<2 x2<2时分裂可以获得最大的增益0.4444

比较知道,应该选择x_{2}<2作为分裂点。

分裂后左右叶子结点的集合如下:

左子节点的样本集合: I L = [ 1 , 3 , 5 , 6 , 8 , 10 , 11 , 15 ] I_{L} = [1,3,5,6,8,10,11,15] IL=[1,3,5,6,8,10,11,15]
右子节点的样本集合: I R = [ 2 , 4 , 7 , 9 , 12 , 14 ] I_{R} = [2,4,7,9,12,14] IR=[2,4,7,9,12,14]

然后继续对 I L I_{L} IL I R I_{R} IR进行分裂。这里就不在啰嗦了。这里直接给出第一个树的结构。

8.3.5 第一棵树结构

8.3.6 叶子结点值计算(学习率)

这里有的人可能对叶子结点取值感到困惑。为何我算出来的是-0.4,可图上却是-0.04?

这里以最左边的一个叶子结点为例,展示一下计算的过程。
落在最左边这个叶子结点上的样本有 I = [ 1 ] I=[1] I=[1]

所以由公式:

w ∗ = − G j H j + λ w^{*} = -\frac{G_{j}}{H_{j}+\lambda} w=Hj+λGj

可得:

w 2 = − G R H R + λ = − g 1 h 1 + 1 = − 0.5 0.25 + 1 = 0.4 w_{2} = -\frac{G_{R}}{H_{R}+\lambda} = -\frac{g_{1}}{h_{1}+1} = -\frac{0.5}{0.25+1} = 0.4 w2=HR+λGR=h1+1g1=0.25+10.5=0.4

落在从左边数起第二个叶子结点上的样本 有 I = [ 3 , 5 , 6 , 8 , 10 , 11 , 15 ] I=[3,5,6,8,10,11,15] I=[3,5,6,8,10,11,15]

w 3 = − G R H R + λ = − g 3 + g 5 + g 6 + g 8 + g 10 + g 11 + g 15 h 3 + h 5 + h 6 + h 8 + h 10 + h 11 + h 15 + 1 = − − 2.5 1.75 + 1 = 0.909 w_{3} = -\frac{G_{R}}{H_{R}+\lambda} = -\frac{g_{3}+g_{5}+g_{6}+g_{8}+g_{10}+g_{11}+g_{15}}{h_{3}+h_{5}+h_{6}+h_{8}+h_{10}+h_{11}+h_{15}+1} = -\frac{-2.5}{1.75+1} = 0.909 w3=HR+λGR=h3+h5+h6+h8+h10+h11+h15+1g3+g5+g6+g8+g10+g11+g15=1.75+12.5=0.909

到这里完全没有问题,但是为什么和图上的不一样呢?这里其实和我们在GBDT中的处理一样,我们会以一个学习率来乘这个值,当完全取-0.4时说明学习率取1,这个时候很容易过拟合。所以每次得到叶子结点的值后需要乘上学习率eta,在前面我们已经设置了学习率是0.1。这里也是GBDT和xgboost一个共同点,大家都是通过学习率来进行Shrinkage,以减少过拟合的风险

至此,我们学习完了第一颗树

8.4 第二棵树(k=2)

8.4.1 计算预估值

这里,我们开始拟合我们第二颗树。其实过程和第一颗树完全一样。只不过对于 y i , p r e d y_{i,pred} yi,pred需要进行更新,也就是拟合第二颗树是在第一颗树预测的结果基础上。这和GBDT一样,因为大家都是Boosting思想的算法。

在第一颗树里面由于前面没有树,所以初始yi,pred=0.5 (用户自己设置的)

假设此时,模型只有这一颗树(K=1),那么模型对样例xi进行预测时,预测的结果表达是什么呢?

由加法模型

y i K = ∑ k = 0 K f k ( x i ) y^{K}_{i} = \sum_{k=0}^{K}f_{k}(x_{i}) yiK=k=0Kfk(xi)

有:

y i 1 = f 0 ( x i ) + f 1 ( x i ) y^{1}_{i} = f_{0}(x_{i}) + f_{1}(x_{i}) yi1=f0(xi)+f1(xi)

其中 f 1 ( x i ) f_{1}(x_{i}) f1(xi)的值是样例 x i x_{i} xi落在第一棵树上的叶子结点值。那 f 0 ( x i ) f_{0}(x_{i}) f0(xi)是什么呢?这里就涉及前面提到一个问题base_score是一个经过sigmod映射后的值 (因为选择使用Logloss做损失函数,概率 y = 1 1 + e x p − x y = \frac{1}{1+exp^{-x}} y=1+expx1

所以需要将0.5逆运算 x = l n y 1 − y x = ln\frac{y}{1-y} x=ln1yy后可以得到 f 0 ( x i ) = 0 f_{0}(x_{i})=0 f0(xi)=0

所以第一颗树预测的结果就是 y i 1 = f 0 ( x i ) + f 1 ( x i ) + w q ( x i ) y^{1}_{i} = f_{0}(x_{i}) + f_{1}(x_{i})+w_{q(x_{i})} yi1=f0(xi)+f1(xi)+wq(xi) (其实当训练次数K足够多的时候,初始化这个值几乎不起作用的,这个在官网文档上有说明)

比如对于ID=1的样本,其落在-0.04这个节点。那么经过sigmod映射后的值为(预测后将其映射成概率):

p 1 , p r e d = 1 1 + e x p 0 + 0.04 = 0.490001 p_{1,pred} = \frac{1}{1+exp^{0+0.04}} = 0.490001 p1,pred=1+exp0+0.041=0.490001

所以,我们可以得到第一棵树预测的结果为下表

注意此处 y i , p r e d y_{i,pred} yi,pred的值,是和 y 1 , p r e d y_{1,pred} y1,pred等同的

8.4.2 计算g和h

由之前计算的一阶导和二阶导的公式, 注意此处的 y i y_{i} yi是最开始的UCI数据集中的样本的标签值:

g i = y i , p r e d − y i ; h i = y i , p r e d ∗ ( 1 − y i , p r e d ) g_{i} = y_{i,pred}-y_{i};h_{i} = y_{i,pred}*(1-y_{i,pred}) gi=yi,predyihi=yi,pred(1yi,pred)

我们可以接着得到新一轮所有样本的一阶和二阶导, 具体如下表, 注意此处之前在第一棵树中被分出去的譬如ID为13的样本, 此时又重新放回到训练数据中, 因为此时是第二颗树的训练:

8.4.3 计算gain及分裂点

之后,我们和第一颗树建立的时候一样以下公式去建树

G a i n = 1 2 [ G L 2 H L + λ + G R 2 H R + λ − ( G L + G R ) 2 H L + H R + λ ] − γ Gain = \frac{1}{2} [\frac{G^{2}_{L}}{H_{L}+\lambda} + \frac{G^{2}_{R}}{H_{R}+\lambda} - \frac{(G_{L}+G_{R})^2}{H_{L}+H_{R}+\lambda}] - \gamma Gain=21[HL+λGL2+HR+λGR2HL+HR+λ(GL+GR)2]γ

拟合完后第二颗树如下图:

后面的所有过程都是重复这个过程,这里就不再啰嗦了。

8.5 额外参数细节

8.5.1 参数min_child_weight

在选择分裂的时候,我们是选取分裂点为一个最大的增益Gain。但是其实在xgboost里面有一个参数叫min_child_weight
先来看看官网对这个参数的解释:

可能看完大概知道这个权重指的应该是二阶导数,但是具体是怎么一回事呢。
其实是这样的:
在前面建立第一颗的根结点的时候,我们得到特征x1每个分裂点的这个表:

我们当时选取了 x 1 < 10 x_{1}<10 x1<10作为分裂特征,但这个是有一个前提的,那就是参数min_child_weight<min ( H L , H R ) (H_{L},H_{R}) (HL,HR) — 二阶导数

如果我们设置min_child_weight=0.26的时候,分裂点就不是选择10,而是放弃这个最大收益,考虑次最大增益。如果次最大增益也不满足min_child_weight<min ( H L , H R ) (H_{L},H_{R}) (HL,HR),则继续往下找,如果没有找到一个满足的,则不进行分裂。(在上面中min_child_weight取的0,所以只要是最大的增益就选为分裂点)

8.5.2 参数γ

在前面例子里,我们把 γ \gamma γ设成了0,如果我们设置成其他值比如1的话,在考虑最大收益的同时,也要考虑这个收益是否比 γ \gamma γ, 如果小于 γ \gamma γ则不进行分裂(预剪枝)。

9 HighLight

9.1 与GBDT区别

  • loss function定义
  • 增加正则项
  • w是最优化求出来的,并不是平均值或者规则指定的,每一颗子树不是CART(上面两个推导而来)

9.2 并行化

  • 同层级节点计算Gain可并行
  • 所有样本计算g、h可并行
  • 节点内选择最佳分裂点(Weighted Quantile Sketch 带权重直方图方法

9.3 与NN的区别

深度神经网络通过对时空位置建模,能够很好地捕获图像、语音、文本等高维数据。而基于树模型的XGBoost则能很好地处理表格数据(by陈天奇)

10 参考文献

(1)xgboost导读和实战
(2)xgboost
(3)自定义目标函数
(4)机器学习算法中GBDT和XGBOOST的区别有哪些?
(5)DART
(6)https://www.kaggle.com/anokas/sparse-xgboost-starter-2-26857/code/code
(7)XGBoost: Reliable Large-scale Tree Boosting System
(8)XGBoost: A Scalable Tree Boosting System

;