树模型

decision tree

决策树的启发函数有ID3, C4.5, CART。

ID3是最大信息增益，也就是信息墒，$H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right)$

C4.5最大信息蹭益比，在ID3计算出最大信息增益比的基础上，然后除以数据机关于该标签的取值墒，比如5个数据中，年龄数据4个年轻，1个年老，该标签的取值墒如下图所示。

CART（classification and regression tree），可以用来分类，也可以用来回归。启发函数用基尼指数（ Gini)，类别越是不均衡，基尼指数越小，这里和经济学上的基尼指数有一个负相关的关系，

三者的比较：

ID3容易过拟合，比如对id信息，所有人的都是不同的，那么，按照这个特征划分，条件墒是0，C4.5对ID3进行优化，加入对类别较多的特征的惩罚，避免过拟合，提高泛化能力。
ID3 只能处理离散型变量，而 C4.5 和 CART 都可以处理连续型变量，都是将连续特征按照切分点分为两份。ID3不能处理的原因也很简单，因为ID3在每次在切分数据的时候，选择的不是一个特征的取值，而是一个具体的特征。
ID3 对样本特征缺失值比较敏感，而 C4.5 和 CART 可以对缺失值进行不同方式的处理。
ID3 和 C4.5 可以在每个结点上产生出多叉分支，且每个特征在层级之间不会复用，而 CART 每个结点只会产生两个分支，因此最后会形成一颗二叉树，且每个特征可以被重复使用。
ID3 和 C4.5 通过剪枝来权衡树的准确性与泛化能力，而 CART 直接利用全部数据发现所有可能的树结构进行对比。

上面说的CART指的是分类树，这里加入和回归树的比较。

输出：

连续值处理方式

预测方式

决策树在训练集上是过拟合的，需要减去一些节点，换来在测试集上的表现，即模型的泛化能力。剪枝分为两种方法，预剪枝（Pre-Pruning）和后剪枝 (Post-Pruning）。预剪枝即在生成决策树的过程中提前停止树的增长。而后剪枝，是在生成的过拟合决策树上进行剪枝，得到简化版的剪枝决策树。

集成学习包括bagging和boost。

从偏差和方差的角度理解：

偏差:
- 偏差是指由有所采样得到的大小为m的训练数据集，训练出的所有模型的输出的平均值和真实模型输出之间的偏差。
- 通常是由对学习算法做了错误的假设导致的
- 描述模型输出结果的期望与样本真实结果的差距。分类器表达能力有限导致的系统性错误，表现在训练误差不收敛
方差
- 是指有所有采样得到的大小为m的训练数据集，训练出的所有模型的输出的方差
- 描述模型对于给定值的输出稳定性。分类器对样本分布过于敏感，到指在训练样本较少的时候，出现过拟合
基分类器的错误，是偏差和方差之和
boosting方法通过逐步聚焦分类器分错的样本，减少集成分类器的偏差
Bagging采用分而治之的策略，通过对样本多次采样，分别训练多个模型，减少方差
方差和偏差的区别可用下图展示

为什么决策树是常用的基分类器

可以看到，adaboost的主要思想有两个：

GBDT用来做回归任务。

采用决策树作为弱分类器的 Gradient Boosting 算法被称为 GBDT, 有时又被称为 MART (Multiple Additive Regression Tree ）。 GBDT 中使用的决策树通常为 CART 。

GBDT用的梯度提升和神经网络里面的梯度下降的异同：

两者都是在每一轮迭代中利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更新
只不过在梯度下降中模型是以参数化形式表示，从而模型的更新等价于参数的重新。而在梯度提升中，模型并不需要进行参数化表示，而是直接走义在函数空间中，从而大大扩展了可以使用的模型种类。

优点

缺点

XGBoost 是陈天奇等人开发的一个开源机器学习项目，高效地实现了 GBDT 算法并进行了算法和工程上的许多改进。

GBDT用于分类问题：

Last updated 3 years ago

Was this helpful?