1.决策树算法的基本特点与优势
决策树算法是一种有监督、非参数、简单、高效的机器学习算法。相对于非监督式学习方法,决策树算法由于充分利用了响应变量的信息,因此能够很好地克服噪声问题,在分类及预测方面效果更佳。决策树的决策边界为矩形,所以对于真实决策也为矩形的样本数据集有着很好的预测效果。此外,决策树算法以树形展示分类结果,在结果的展示方面比较直观,所以在实务中应用较为广泛。
2.决策树示例及解读
决策树算法借助树的分支结构构建模型。如果是用于分类问题,则决策树为分类树;如果是用于回归问题,则决策树为回归树。一个典型的决策树例子如图所示。
在图中,最上面的一个点是根节点,最下面的各个点是叶节点,其他的点都是内节点(本例中展示的决策树内节点只有一层,但实务中可能有很多层都属于内节点)。
本例中根节点为0号(node #0),样本全集中未违约客户和违约客户的占比分别为0.739、0.261。
在样本全集中,如果客户的工作年限workyears<=7.35,就会被分到1号节点,1号节点未违约客户和违约客户的占比分别为0.493、0.507;如果客户的工作年限workyears>7.35,就会被分到4号节点,4号节点未违约客户和违约客户的占比分别为0.941、0.059。然后在1号节点中,如果客户的债务率debtratio <= 12.653,就会被分到2号节点,2号节点未违约客户和违约客户的占比分别为0.718、0.282;如果信用卡客户的债务率debtratio >12.653,就会被分到3号节点,3号节点未违约客户和违约客户的占比分别为0.24、0.76,需要引起高度重视。
3.决策树执行的是一种自上而下的贪心算法
4.决策树算法不需要对特征变量进行标准化处理
5.针对Python数据分析或机器学习推荐两本入门级的图书
(1)《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)
(2)《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。