C4.5决策树的基本建模流程

本文介绍: （1）它引入了信息值（information value）的概念来修正信息熵的计算结果，以抑制ID3更偏向于选择具有更多分类水平的列进行展开的情况，从而间接地抑制模型过拟合的倾向；即在连续变量中寻找相邻的取值的中间点作为备选切分点，通过计算切分后的GR值来挑选最终数据集划分方式。C4.5中信息值（以下简称IV值）是一个用于衡量数据集在划分时分支个数的指标，如果划分时分支越多，IV值就越高。（2）C4.5新增了对连续变量的处理方法，采用类似于CART树的方法来寻找相邻取值的中间值作为切分点；

C4.5决策树的基本建模流程

作为ID3算法的升级版，C4.5在三个方面对ID3进行了优化：

（1）它引入了信息值（information value）的概念来修正信息熵的计算结果，以抑制ID3更偏向于选择具有更多分类水平的列进行展开的情况，从而间接地抑制模型过拟合的倾向；
（2）C4.5新增了对连续变量的处理方法，采用类似于CART树的方法来寻找相邻取值的中间值作为切分点；
（3）C4.5加入了决策树的剪枝流程，以进一步提升模型的泛化能力。

然而，需要注意的是，尽管C4.5进行了这些改进，但它仍然只能解决分类问题，其本质仍然是一种分类树。

C4.5中信息值（以下简称IV值）是一个用于衡量数据集在划分时分支个数的指标，如果划分时分支越多，IV值就越高。具体IV值的计算公式如下：

在这里插入图片描述
上次介绍的ID3决策树的建模流程中，

以湿度的不同取值为划分规则时：

在这里插入图片描述

IV =

−

∗

-frac{2}{5}*log_2frac{2}{5}

$- \frac{2}{5} * l o g_{2} \frac{2}{5}$ –

∗

frac{1}{5}*log_2frac{1}{5}

$\frac{1}{5} * l o g_{2} \frac{1}{5}$ –

∗

frac{2}{5}*log_2frac{2}{5}

$\frac{2}{5} * l o g_{2} \frac{2}{5}$ =1.52

C4.5采用增益比例（Gain Ratio，被称为获利比例或增益率），来指导具体的划分规则的挑选。GR的计算公式如下：

Gain Ratio = frac{Information Gain}{Information Value}

$G ain R a t i o = \frac{I n f or ma t i o n G ain}{I n f or ma t i o n Va l u e}$
上面的GR值为：

frac{gain}{IV}

$\frac{g ain}{I V}$ =

0.97

1.52

frac{0.97}{1.52}

$\frac{0.97}{1.52}$ =0.64

然后据此进一步计算其他各列展开后的GR值，并选择GR较大者进行数据集划分

C4.5的连续变量处理方法:和CART树一致。即在连续变量中寻找相邻的取值的中间点作为备选切分点，通过计算切分后的GR值来挑选最终数据集划分方式。

在sklearn的树模型介绍文档中，有一段关于sklearn的决策树不支持离散变量建模的说明，其意为不支持按照类似ID3或C4.5的方式直接将离散变量按列来进行展开，而是根据sklearn中集成的CART树自身的建模规则，使得sklearn中的决策树实际上在处理特征时都是按照C4.5中连续变量的处理方式在进行处理，并非指的是带入离散变量就无法建模。

原文地址:https://blog.csdn.net/weixin_43837522/article/details/135813257

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_61559.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。