本文介绍: 本笔记本演示了如何使用 XGBoost 预测个人年收入超过 5 万美元的概率。它使用标准 UCI 成人收入数据集。要下载此笔记本的副本,请访问。XGBoost 等梯度增强机方法对于具有多种形式的表格样式输入数据的此类预测问题来说是最先进的。Tree SHAP()允许精确计算树集成方法的 SHAP 值,并已直接集成到 C++ XGBoost 代码库中。这允许快速精确计算 SHAP 值,无需采样,也无需提供背景数据集(因为背景是从树木的覆盖范围推断出来的)。
SHAP(五):使用 XGBoost 进行人口普查收入分类
本笔记本演示了如何使用 XGBoost 预测个人年收入超过 5 万美元的概率。 它使用标准 UCI 成人收入数据集。 要下载此笔记本的副本,请访问 github。
XGBoost 等梯度增强机方法对于具有多种形式的表格样式输入数据的此类预测问题来说是最先进的。 Tree SHAP(arXiv 论文)允许精确计算树集成方法的 SHAP 值,并已直接集成到 C++ XGBoost 代码库中。 这允许快速精确计算 SHAP 值,无需采样,也无需提供背景数据集(因为背景是从树木的覆盖范围推断出来的)。
在这里,我们演示如何使用 SHAP 值来理解 XGBoost 模型预测。
1.加载数据集
2.训练模型
3.经典特征归因
在这里,我们尝试 XGBoost 附带的全局特征重要性计算。 请注意,它们都是相互矛盾的,这激励了 SHAP 值的使用,因为它们具有一致性保证(意味着它们将正确排序特征)。
4,解释预测
4.1 可视化单个预测
4.2 将许多预测可视化
5.平均重要性条形图
6.SHAP 概要图
7.SHAP 相关图
8.简单的监督聚类
训练每棵树只有两个叶子的模型,因此特征之间没有交互项
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。