GBM & GBDT详解

2023-03-05 09:18:01Python013

GBM & GBDT详解,第1张

在理解GBDT之前，我们需要知道什么是GBM，GBM的全称是Gradient Boosting Machines，它是1999年被Jerome Friedman在他的论文中提出来的，从名字中我们可以知道这个算法的关键词：G(Gradient)、B(Boosting)。

为了理解GBM，首先我们需要知道什么是B(Boosting)：

Boosting是集成方法中的一种，集成方法的主要思想是利用一定的手段学习出多个基学习器，而且这多个基学习器要求是弱学习器，然后将多个基学习器进行组合。boosting方法通过分步迭代（stage-wise）的方式来构建模型，每一步迭代构建的弱学习器都是为了弥补已有模型的不足。

G(Gradient)是指用来最小化损失函数的方法，传统的Boosting模型，如Adaboost，最小化损失函数的方式是，每次迭代后，通过更新样本权重分布（分对的样本权重变小，分错的样本权重变大），让后一个基学习器更加关注分错的样本，这样一轮轮的迭代下去，从而达到使损失函数最小化的目标。Adaboost的损失函数是指数损失函数，所以比较好用数学推导的方式去计算每一次迭代时让损失函数达到最小值的最优解，但是其它的损失函数可能不那么容易优化，为了找到一种通用的最优化损失函数的方法，Gradient Boosting被提出来了，Gradient Boosting是指每一步迭代，都是用损失函数的负梯度来拟合弱学习器，以达到使损失函数最小化的目的，GBM 在损失函数的选择上有更大的灵活性。这和梯度下降法的思想是一样的，通过找到使损失函数下降最快的方向，一步一步逼近最小值点，大家可以参考我的另外一篇文章：‘梯度下降和牛顿法’。

我们用来表示我们的总模型，其中第m步后的模型，可以用上一轮迭代之后的模型加上本轮学习的基学习器然后再乘以一个表示，和梯度下降中的步长意义是一样的，表示这一步应该走多远：

让我们来看看GBM的训练步骤（以下图片来自维基百科）

GBM中最常用的基学习器是CART回归树，该类GBM算法也叫GBDT。

为什么要选择决策树做基学习器呢，因为决策树有很多优点：

因为基学习器是决策树，所有GBDT在GBM算法的基础上做了一点修改，以更好的发挥决策树的优点。

因为是树模型，所以可以用表示，其中是第m个基决策树的叶子节点数，是每个叶子节点的值，那么原先的就可以写成

，

把放到求和里面去，就变成了

我们来看看GBDT的训练步骤：

大家可能会有一个疑问，按照上面的步骤，好像(2.1)和(2.2)没什么作用，其实(2.1)和(2.2)是用来确定树结构的，训练后树的每个叶子节点的值通过(2.3)的方式确定，有几个叶子节点，就有几个值，这样每一步迭代就有多个参数可以调节来进一步改善拟合的质量，使损失函数最小化。

不管是分类问题，还是回归问题，GBDT使用的决策树都是CART回归树，为什么回归树可以解决分类问题呢，因为GBDT基学习器拟合的是负梯度值，负梯度是一个实数，所以基学习器解决的其实是一个回归问题。

回归问题最常见的损失函数有误差平方和、绝对误差等损失函数。