【可解释性机器学习】详解Python的可解释机器学习库：SHAP

本文介绍: **SHAP是Pyt h on 开发的一个“模型解释”包，可以解释任何机器学习模型的输出**。其名称来源于**SHa pley Ad d i t i v e e xPlan a t ion**，在合作博弈论的启发下SHAP构建一个加性的解释模型，所有的特征都视为“贡献者”。对于每个预测样本，模型都产生一个预测值，SHAP value就是该样本中每个特征所分配到的数值。

可解释机器学习在这几年慢慢成为了机器学习的重要研究方向。作为数据科学家需要防止模型存在偏见，且帮助决策者理解如何正确地使用我们的模型。越是严苛的场景，越
需要模型提供证明它们是如何运作且避免错误的证据。

关于模型解释性，除了线性模型和决策树这种天生就有很好解释性的模型意外，skle an中有很多模型都有importance这一接口，可以查看特征的重要性。其实这已经含沙射影地体现了模型解释性的理念。只是传统的import a nc e的计算方法其实有很多争议，且并不总是一致。

SHAP是Pyt h on 开发的一个“模型解释”包，可以解释任何机器学习模型的输出。其名称来源于SHa pley Ad ditiv e e xPlan ation，在合作博弈论的启发下SHAP构建一个加性的解释模型，所有的特征都视为“贡献者”。对于每个预测样本，模型都产生一个预测值，SHAP value就是该样本中每个特征所分配到的数值。

假设第i个样本为

传统的feature importance只告诉哪个特征重要，但并不清楚该特征是怎样影响预测结果的。SHAP value 最大的优势是SHAP能对于反映出每一个样本中的特征的影响力，而且还表现出影响的正负性。
SHAP示意图通过pip install shap即可安装:

import shap

# 首先训练好一个XGBoost model
X,y = shap.datasets.boston()
model = xgboost.train({"learning_rate": 0.01}, xgboost.DMatrix(X, label=y), 100)

sum(SHAP values for all features) = pred_for_team - pred_for_baseline_values

explainer = shap.TreeExplainer(model) # #这里的model在准备工作中已经完成建模，模型名称就是model
shap_values = explainer.shap_values(X) # 传入特征矩阵X，计算SHAP值

上面的shap_values对象是一个包含两个 array的list。第一个array是负向结果的SHAP值，而第二个 array是正向结果的SHAP值。通常从预测正向结果的角度考虑模型的预测结果，所以会拿出正向结果的SHAP值（拿出shap_values[1]）。

# 可视化第一个prediction的解释
shap.initjs()
shap.force_plot(explainer.expected_value, shap_values[0,:], X.iloc[0,:])

基本值(base_value)是我们传入数据集上模型预测值的均值，可以通过自己计算来验证：

y_base = explainer.expected_value
print(y_base) # 14.230186

pred = model.predict(xgboost.DMatrix(X))
print(pred.mean()) # 14.230188

shap.initjs()
shap.force_plot(explainer.expected_value, shap_values, X)

# 获取单个样本的Top N特征值和对应的SHAP值
def get_topN_reason(old_list, features, top_num = 3, min_value = 0.0):
  # 输出shap值最高的N个标签
  feature_importance_dict = {}
  for i, f in zip(old_list, features):
    feature_importance_dict[f] = i
  new_dict = dict(sorted(feature_importance_dict.items(), key=lambda e: e[1], reverse=True))
  return_dict = {}
  for k ,v in new_dict.items():
    if top_num > 0:
      if v >= min_value:
        return_dict[k] = v
        top_num -= 1
      else:
        break
    else:
      break
  return return_dict
print(get_topN_reason(old_list=shap_values[505], features=X.columns.values)) # 这里选取第505个样本

{'LSTAT': 1.11883, 'NOX': 0.10774355, 'TAX': 0.061408427}

summary plot 为每个样本绘制其每个特征的SHAP值，这可以更好地理解整体模式，并允许发现预测异常值。每一行代表一个特征，横坐标为SHAP值。一个点代表一个样本，颜色表示特征值(红色高，蓝色低)。比如，这张图表明LSTAT特征较高的取值会降低预测的房价

# summarize the effects of all the features
shap.summary_plot(shap_values, X)

shap.summary_plot(shap_values, X, plot_type="bar")

interaction value是将SHAP值推广到更高阶交互的一种方法。树模型实现了快速、精确的两两交互计算，这将为每个预测返回一个矩阵，其中主要影响在对角线上，交互影响在对角线外。这些数值往往揭示了有趣的隐藏关系（交互作用）：

shap_interaction_values = explainer.shap_interaction_values(X)
shap.summary_plot(shap_interaction_values, X)

# create a SHAP dependence plot to show the effect of a single feature across the whole dataset
shap.dependence_plot("RM", shap_values, X)

import time
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor

X_train, X_test, y_train, y_val = train_test_split(X, y, random_state=1)

knn = KNeighborsRegressor().fit(X_train, y_train)

X_train_summary = shap.kmeans(X_train, 10)
t0 = time.time()
explainerKNN = shap.KernelExplainer(knn.predict, X_train_summary)
shap_values_KNN_train = explainerKNN.shap_values(X_train)
shap_values_KNN_test = explainerKNN.shap_values(X_test)
timeit=time.time()-t0
timeit
'''
103.51293921470642
'''

在此示例中，使用SHAP计算使用 Python 和 scikit-learn 的神经网络的特征影响。对于这个例子，使用 scikit-learn 的糖尿病数据集，它是一个回归数据集。

!pip install shap

import shap
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPRegressor
from sklearn.pipeline import make_pipeline

from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split

# 加载数据集和特征名称
X,y = load_diabetes(return_X_y=True)
features = load_diabetes()['feature_names']
# 拆分训练和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

model = make_pipeline(
    StandardScaler(),
    MLPRegressor(hidden_layer_sizes=(5,),activation='logistic', max_iter=10000,learning_rate='invscaling',random_state=0)
)
model.fit(X_train,y_train)

输出结果
现在是 SHAP 部分。首先，需要创建一个名为explainer的对象。它是在输入中接受模型的预测方法和训练数据集的对象。为了使 SHAP 模型与模型无关，它围绕训练数据集的点执行扰动，并计算这种扰动对模型的影响。这是一种重采样技术，其样本数量稍后设置。这种方法与另一种称为 LIME 的著名方法有关，该方法已被证明是原始 SHAP 方法的一个特例。结果是对 SHAP 值的统计估计。
所以，首先定义解释器对象。

explainer = shap.KernelExplainer(model.predict,X_train)
'''
WARNING:shap:Using 296 background data samples could cause slower run times. Consider using shap.sample(data, K) or shap.kmeans(data, K) to summarize the background as K samples.
'''

现在可以计算SHAP值。请记住，它们是通过对训练数据集重新采样并计算对这些扰动的影响来计算的，因此必须定义适当数量的样本。对于此示例，使用 100 个样本。然后，在测试数据集上计算影响。
计算SHAP值
出现一个漂亮的进度条并显示计算的进度，这可能很慢。

shap.summary_plot(shap_values, X_test, feature_names=features)

更深入地了解特定记录，还可以绘制的一个非常有用的图称为force_plot：

shap.initjs()
shap.force_plot(explainer.expected_value, shap_values[0,:] ,X_test[0,:],feature_names=features)

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

shap 解释解释性

详解Pyt h on的可解释 机器 学习库：SHAP

SHAP介绍

SHAP的用途

SHAP的工作 原理

解释器Explainer

局部可解释性Local Interper

单个p red iction的解释

多个预测的解释

获取单个样本的Top N个特征值及其对应的SHAP值

全局可解释性Global Interper

summary_plot

Feature Importance

Interaction Values

dependence_plot

其他类型的explainers

一个使用SHAP计算神经网络影响的示例

参考资料

发表回复取消回复

详解Python的可解释机器学习库：SHAP