1. 背景
DT决策树是一种基本的分类与回归方法,其学习时,利用训练数据,根据损失函数最小化原则建立DT模型。
分类DT主要优点:模型具有可读性,分类速度快。
由DT树的根结点到叶结点的每一条路径构建一条规则,即组合特征,路径上内部结点
的特征对应着规则的条件,而叶结点的类对应着规则的结论。这些路径互斥且完备。
DT学习通常包括3个步骤:特征选择、DT的生成与DT的修剪。DT的生成只考虑局部最优,而DT的剪枝则考虑全局最优。
DT学习是由训练数据集估计条件概率模型,其损失函数通常是正则化的极大似然函数,其策略是损失函数为目标函数的最小化。
2. 特征选择
特征选择在于选取对训练数据具有分类能力的特征,这样可以提高DT学习的效率。通常特征选择的准则是信息增益或信息增益比。
2.1 熵
随机变量X的熵定义为 (对数以2为底时,熵的单位叫bit;以e为底时,熵的单位叫nat)。
其中 ,i=1,2,…,n
2.2 条件熵
H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。
即X给定条件下Y的条件概率分布的熵对X的数学期望
其中令0log0=0
信息增益表示,得知特征X的信息而使得类Y的信息的不确定性减少的程度。
2.3 信息增益及其计算
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差(亦叫类与特征的互信息)。
表示对数据集D进行分类的不确定性。
(3)计算信息增益
表示由于特征A而使得对数据集D的分类的不确定性减少的程度。
2.4 信息增益比
信息增益存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题
进行校正。
定义:信息增益g(D,A)与训练集D关于特征A的值的熵之比。
即
3. DT的生成
3.1 ID3算法
ID3算法的核心是在DT各个结点上应用信息增益准则选择特征,递归地构建DT。具体方法如下:
从根结点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点;再对子结点递归地调用以上方法,构建DT;直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个DT。
ID3相当于用极大似然法进行概率模型的选择,但其只有树的生成,所以该算法生成的树
容易产生过拟合。
3.2 C4.5算法
C4.5算法对ID3算法进行了改进,在生成过程中,用信息增益比来选择特征。
4. DT的剪枝
剪枝(pruning)是将已生成的树进行简化的过程,即从已生成的树上裁掉一些子树或叶结点,
并将其根结点或父结点作为新的叶结点,从而简化分类树模型。DT的剪枝往往通过极小化DT整体的损失函数来实现。
DT学习的损失函数可以定义为: ()
其中
为叶结点t上的经验熵。
|T|为树T的叶结点个数(即模型复杂度),t是树T的叶结点,该叶结点有个样本点,其中k类样本点有个。
DT生成学习局部的模型(只考虑了通过提高信息增益对训练数据进行更好的拟合),DT剪枝学习整体的模型(通过优化损失函数还考虑了减小模型复杂度)。
利用损失函数最小原则进行剪枝就是用正则化的极大似然估计进行模型选择。
5. CART算法
分类与回归树CART(classification and regression tree)模型既可以用于分类也可以用于回归(其假设DT是二叉树)。
5.1 CART生成
基于训练数据集生成DT,生成的DT要尽量大;
DT的生成就是递归地构建二叉DT的过程,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。
5.1.1 回归树的生成
5.1.2 分类树的生成
分类树用基尼指数选择最优特征,同时决定该特征的最优二值切分点(选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点)。
特征A条件下集合D的基尼指数
基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性。基尼指数与熵相似,其值越大,样本集合的不确定性也就越大。
5.2 CART剪枝
用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。CART剪枝算法从“完全生长”的DT的底端剪去一些子树,使DT变得简单,从而能够对未知数据有更准确的预测。
原文地址:https://blog.csdn.net/MusicDancing/article/details/134602332
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_25378.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!