Facebook于2014年推出了GBDT+LR组合模型的广告推荐系统,简单来说就是利用GBDT自动进行特征筛选和组合,生成新的离散型特征向量,再利用LR模型预测CTR。
因此本章将讲述一下GBDT以及衍生的Xgboost,lightgbm模型。
树模型
首先,简单了解机器学习中的树模型。
树模型是一个一个特征进行处理,对每一个特征做一个划分,这是与线性模型的不同之处。
决策树学习:采用自顶向下的递归的方法,基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处熵值为0(叶节点中的实例都属于一类)。
决策树思想,实际上就是寻找最纯净的划分方法,这个最纯净在数学上叫纯度,纯度通俗点理解就是目标变量要分得足够开(y=1的和y=0的混到一起就会不纯)。另一种理解是分类误差率的一种衡量。实际决策树算法往往用到的是,不纯度。不纯度的选取有多种方法,每种方法也就形成了不同的决策树方法,比如ID3算法使用信息增益作为不纯度;C4.5算法使用信息增益率作为不纯度;CART算法使用基尼系数作为不纯度。