GBDT、XGBoost、LightGBM比较

时间:2024-05-20 18:43:43

1.GBDT

GBDT (Gradient Boosting Decision Tree) 梯度提升决策树。DT-Decision Tree决策树,GB是Gradient Boosting,是一种学习策略,GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型

在前几年深度学习还没有大行其道之前,GBDT在各种竞赛是大放异彩。一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。

Boosting共有的缺点为训练是按顺序的,难以并行,这样在大规模数据上可能导致速度过慢,所幸近年来XGBoost和LightGBM的出现都极大缓解了这个问题。XGBoost和LightGBM是GBDT的升级版。

GBDT学习总结(Boosting、决策树)
https://blog.****.net/zephyr_wang/article/details/106409307

2.XGBoost

1)设计和建立了一个可扩展的端到端的树提升系统。特点是可以快速的处理大数据。2015-2017年。
2)引入了一个新颖的稀疏感知算法,可以并行的树训练;
3)提出了一个理论上公平的权重分位数略图方法,方便近似学习查找最佳分割点。
4)对于硬盘上的大数据的树学习,我们提出了一个有效的缓存感知块结构,以及数据压缩、分片。
GBDT、XGBoost、LightGBM比较
XGBoost论文笔记(https://blog.****.net/zephyr_wang/article/details/109211849)

3.LightGBM

2017年。LightGBM在准确率不影响的情况下,比XGBoost更快。

采用GOSS和EFB的GBDT算法,我们叫做LightGBM。Gradient-based One-Side Sampling (GOSS) and Exclusive Feature Bundling (EFB,排除在外特征的捆绑打包)。

采用GOSS,我们可以排除相当比例的小梯度信息的数据实例,仅使用剩下的数据实例评估信息增益。拥有大梯度的数据实例在信息增益计算中扮演重要的角色。
即GOSS用来减少训练数据量。

采用EFB,我们可以把互斥的特征(他们很少同时拥有非零值)打包在一起,来减少特征的数量。寻找互斥特征的最优打包是NP-hard(NP是指多项式复杂程度的非确定性问题non-deterministic polynomial,缩写NP)的,但一个贪婪的算法可以完成很好的近似比率。
即EFB用来减少特征维度。

GBDT、XGBoost、LightGBM比较
《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》论文笔记
https://blog.****.net/zephyr_wang/article/details/109244085