Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版（二）

本文介绍: 原文：Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow译者：飞龙协议：CC BY-NC-SA 4.0第三章：分类在第一章中，我提到最常见的监督学习任务是回归（预测值）和分类（预测类）。在第二章中，我们探讨了一个回归任务，使用各种算法（如线性回归、决策树和随机森林）来预测房屋价值（这将在后面的章节中进一步详细解释）。现在我们将把注意力转向分类系统。MNIST在本章中，我们将使用 MNIST 数据集，这是由美国人

在第一章中，我提到最常见的监督学习任务是回归（预测值）和分类（预测类）。在第二章中，我们探讨了一个回归任务，使用各种算法（如线性回归、决策树和随机森林）来预测房屋价值（这将在后面的章节中进一步详细解释）。现在我们将把注意力转向分类系统。

在本章中，我们将使用 MNIST 数据集，这是由美国人口普查局的高中学生和员工手写的 70,000 张小数字图像集。每个图像都带有它代表的数字标签。这个数据集已经被研究了很多次，通常被称为机器学习的“hello world”：每当人们提出一个新的分类算法时，他们都很好奇它在 MNIST 上的表现如何，任何学习机器学习的人迟早都会处理这个数据集。

Scikit-Learn 提供许多辅助函数来下载流行的数据集。MNIST 就是其中之一。以下代码从 OpenML.org 获取 MNIST 数据集：¹

from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', as_frame=False)

sklearn.datasets包主要包含三种类型的函数：fetch_*函数，如fetch_openml()用于下载真实数据集，load_*函数用于加载与 Scikit-Learn 捆绑的小型玩具数据集（因此不需要通过互联网下载），以及make_*函数用于生成虚假数据集，对测试很有用。生成的数据集通常作为包含输入数据和目标的(X, y)元组返回，都作为 NumPy 数组。其他数据集作为sklearn.utils.Bunch对象返回，这些对象是字典，其条目也可以作为属性访问。它们通常包含以下条目：

"DESCR"

数据集描述

fetch_openml()函数有点不同，因为默认情况下它将输入返回为 Pandas DataFrame，将标签返回为 Pandas Series（除非数据集是稀疏的）。但是 MNIST 数据集包含图像，而 DataFrame 并不理想，因此最好设置as_frame=False以将数据作为 NumPy 数组获取。让我们看看这些数组：

>>> X, y = mnist.data, mnist.target
>>> X
array([[0., 0., 0., ..., 0., 0., 0.],
 [0., 0., 0., ..., 0., 0., 0.],
 [0., 0., 0., ..., 0., 0., 0.],
 ...,
 [0., 0., 0., ..., 0., 0., 0.],
 [0., 0., 0., ..., 0., 0., 0.],
 [0., 0., 0., ..., 0., 0., 0.]])
>>> X.shape
(70000, 784)
>>> y
array(['5', '0', '4', ..., '4', '5', '6'], dtype=object)
>>> y.shape
(70000,)

共有 70,000 张图像，每张图像有 784 个特征。这是因为每个图像是 28×28 像素，每个特征只是表示一个像素的强度，从 0（白色）到 255（黑色）。让我们看一下数据集中的一个数字（图 3-1）。我们只需要获取一个实例的特征向量，将其重塑为 28×28 数组，并使用 Matplotlib 的imshow()函数显示它。我们使用cmap="binary"来获取一个灰度色图，其中 0 是白色，255 是黑色：

import matplotlib.pyplot as plt

def plot_digit(image_data):
    image = image_data.reshape(28, 28)
    plt.imshow(image, cmap="binary")
    plt.axis("off")

some_digit = X[0]
plot_digit(some_digit)
plt.show()

>>> y[0]
'5'

但是！在仔细检查数据之前，您应该始终创建一个测试集并将其放在一边。fetch_openml()返回的 MNIST 数据集实际上已经分为训练集（前 60,000 张图像）和测试集（最后 10,000 张图像）：²

X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]

y_train_5 = (y_train == '5')  # True for all 5s, False for all other digits
y_test_5 = (y_test == '5')

现在让我们选择一个分类器并对其进行训练。一个很好的开始地方是使用随机梯度下降（SGD，或随机 GD）分类器，使用 Scikit-Learn 的SGDClassifier类。这个分类器能够高效处理非常大的数据集。部分原因是因为 SGD 独立处理训练实例，一次一个，这也使得 SGD 非常适合在线学习，稍后您将看到。让我们创建一个SGDClassifier并在整个训练集上对其进行训练：

from sklearn.linear_model import SGDClassifier

sgd_clf = SGDClassifier(random_state=42)
sgd_clf.fit(X_train, y_train_5)

>>> sgd_clf.predict([some_digit])
array([ True])

分类器猜测这幅图像代表数字 5（True）。在这种特殊情况下，看起来它猜对了！现在，让我们评估这个模型的性能。

评估模型的一个好方法是使用交叉验证，就像您在第二章中所做的那样。让我们使用cross_val_score()函数来评估我们的SGDClassifier模型，使用三折交叉验证。请记住，k-fold 交叉验证意味着将训练集分成k折（在本例中为三折），然后训练模型k次，每次保留一个不同的折叠用于评估（参见第二章）：

>>> from sklearn.model_selection import cross_val_score
>>> cross_val_score(sgd_clf, X_train, y_train_5, cv=3, scoring="accuracy")
array([0.95035, 0.96035, 0.9604 ])

from sklearn.dummy import DummyClassifier

dummy_clf = DummyClassifier()
dummy_clf.fit(X_train, y_train_5)
print(any(dummy_clf.predict(X_train)))  # prints False: no 5s detected

>>> cross_val_score(dummy_clf, X_train, y_train_5, cv=3, scoring="accuracy")
array([0.90965, 0.90965, 0.90965])

计算混淆矩阵，首先需要一组预测结果，以便与实际目标进行比较。您可以对测试集进行预测，但最好现在保持不变（记住，您只想在项目的最后阶段使用测试集，一旦您准备启动分类器）。相反，您可以使用cross_val_predict()函数：

from sklearn.model_selection import cross_val_predict

y_train_pred = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3)

就像cross_val_score()函数一样，cross_val_predict()执行k-fold 交叉验证，但不返回评估分数，而是返回在每个测试折叠上做出的预测。这意味着您可以获得训练集中每个实例的干净预测（“干净”是指“样本外”：模型对训练期间从未见过的数据进行预测）。

现在您已经准备好使用confusion_matrix()函数获取混淆矩阵。只需将目标类（y_train_5）和预测类（y_train_pred）传递给它：

>>> from sklearn.metrics import confusion_matrix
>>> cm = confusion_matrix(y_train_5, y_train_pred)
>>> cm
array([[53892,   687],
 [ 1891,  3530]])

>>> y_train_perfect_predictions = y_train_5  # pretend we reached perfection
>>> confusion_matrix(y_train_5, y_train_perfect_predictions)
array([[54579,     0],
 [    0,  5421]])

>>> from sklearn.metrics import precision_score, recall_score
>>> precision_score(y_train_5, y_train_pred)  # == 3530 / (687 + 3530)
0.8370879772350012
>>> recall_score(y_train_5, y_train_pred)  # == 3530 / (1891 + 3530)
0.6511713705958311

要计算 F[1]分数，只需调用f1_score()函数：

>>> from sklearn.metrics import f1_score
>>> f1_score(y_train_5, y_train_pred)
0.7325171197343846

为了理解这种权衡，让我们看看SGDClassifier是如何做出分类决策的。对于每个实例，它根据决策函数计算得分。如果该得分大于阈值，则将实例分配给正类；否则将其分配给负类。图 3-4 显示了一些数字，从最低得分的左侧到最高得分的右侧。假设决策阈值位于中间箭头处（两个 5 之间）：你会发现在该阈值右侧有 4 个真正例（实际为 5），以及 1 个假正例（实际上是 6）。因此，使用该阈值，精度为 80%（5 个中的 4 个）。但在 6 个实际为 5 的情况下，分类器只检测到 4 个，因此召回率为 67%（6 个中的 4 个）。如果提高阈值（将其移动到右侧的箭头处），假正例（6）变为真负例，从而增加精度（在这种情况下最高可达 100%），但一个真正例变为假负例，将召回率降低到 50%。相反，降低阈值会增加召回率并降低精度。

Scikit-Learn 不允许直接设置阈值，但它确实让您访问它用于做出预测的决策得分。您可以调用分类器的decision_function()方法，而不是调用predict()方法，该方法返回每个实例的得分，然后根据这些得分使用任何阈值进行预测：

>>> y_scores = sgd_clf.decision_function([some_digit])
>>> y_scores
array([2164.22030239])
>>> threshold = 0
>>> y_some_digit_pred = (y_scores > threshold)
array([ True])

SGDClassifier使用阈值等于 0，因此前面的代码返回与predict()方法相同的结果（即True）。让我们提高阈值：

>>> threshold = 3000
>>> y_some_digit_pred = (y_scores > threshold)
>>> y_some_digit_pred
array([False])

如何决定使用哪个阈值？首先，使用cross_val_predict()函数获取训练集中所有实例的分数，但是这次指定要返回决策分数而不是预测：

y_scores = cross_val_predict(sgd_clf, X_train, y_train_5, cv=3,
                             method="decision_function")

使用这些分数，使用precision_recall_curve()函数计算所有可能阈值的精度和召回率（该函数添加最后一个精度为 0 和最后一个召回率为 1，对应于无限阈值）：

from sklearn.metrics import precision_recall_curve

precisions, recalls, thresholds = precision_recall_curve(y_train_5, y_scores)

plt.plot(thresholds, precisions[:-1], "b--", label="Precision", linewidth=2)
plt.plot(thresholds, recalls[:-1], "g-", label="Recall", linewidth=2)
plt.vlines(threshold, 0, 1.0, "k", "dotted", label="threshold")
[...]  # beautify the figure: add grid, legend, axis, labels, and circles
plt.show()

plt.plot(recalls, precisions, linewidth=2, label="Precision/Recall curve")
[...]  # beautify the figure: add labels, grid, legend, arrow, and text
plt.show()

假设你决定追求 90%的精度。你可以使用第一个图表找到需要使用的阈值，但这不太精确。或者，你可以搜索给出至少 90%精度的最低阈值。为此，你可以使用 NumPy 数组的argmax()方法。这将返回最大值的第一个索引，这在这种情况下意味着第一个True值：

>>> idx_for_90_precision = (precisions >= 0.90).argmax()
>>> threshold_for_90_precision = thresholds[idx_for_90_precision]
>>> threshold_for_90_precision
3370.0194991439557

要进行预测（目前只是在训练集上），而不是调用分类器的predict()方法，你可以运行这段代码：

y_train_pred_90 = (y_scores >= threshold_for_90_precision)

>>> precision_score(y_train_5, y_train_pred_90)
0.9000345901072293
>>> recall_at_90_precision = recall_score(y_train_5, y_train_pred_90)
>>> recall_at_90_precision
0.4799852425751706

要绘制 ROC 曲线，首先使用roc_curve()函数计算各种阈值的 TPR 和 FPR：

from sklearn.metrics import roc_curve

fpr, tpr, thresholds = roc_curve(y_train_5, y_scores)

然后，您可以使用 Matplotlib 绘制 FPR 与 TPR。以下代码生成图 3-7 中的图。要找到对应于 90%精确度的点，我们需要查找所需阈值的索引。由于在这种情况下，阈值按降序列出，因此我们在第一行上使用<=而不是>=：

idx_for_threshold_at_90 = (thresholds <= threshold_for_90_precision).argmax()
tpr_90, fpr_90 = tpr[idx_for_threshold_at_90], fpr[idx_for_threshold_at_90]

plt.plot(fpr, tpr, linewidth=2, label="ROC curve")
plt.plot([0, 1], [0, 1], 'k:', label="Random classifier's ROC curve")
plt.plot([fpr_90], [tpr_90], "ko", label="Threshold for 90% precision")
[...]  # beautify the figure: add labels, grid, legend, arrow, and text
plt.show()

>>> from sklearn.metrics import roc_auc_score
>>> roc_auc_score(y_train_5, y_scores)
0.9604938554008616

现在让我们创建一个RandomForestClassifier，我们可以将其 PR 曲线和 F[1]分数与SGDClassifier的进行比较：

from sklearn.ensemble import RandomForestClassifier

forest_clf = RandomForestClassifier(random_state=42)

precision_recall_curve()函数期望每个实例的标签和分数，因此我们需要训练随机森林分类器并使其为每个实例分配一个分数。但是，由于RandomForestClassifier类的工作方式（我们将在第七章中介绍），它没有decision_function()方法。幸运的是，它有一个predict_proba()方法，为每个实例返回类概率，并且我们可以将正类别的概率作为分数，因此它将正常工作。⁴我们可以调用cross_val_predict()函数，使用交叉验证训练RandomForestClassifier，并使其为每个图像预测类概率，如下所示：

y_probas_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3,
                                    method="predict_proba")

>>> y_probas_forest[:2]
array([[0.11, 0.89],
 [0.99, 0.01]])

这些是估计概率，而不是实际概率。例如，如果您查看模型将其分类为正面的所有图像，其估计概率在 50%到 60%之间，大约 94%实际上是正面的。因此，在这种情况下，模型的估计概率要低得多，但模型也可能过于自信。sklearn.calibration包含工具，可以校准估计的概率，使其更接近实际概率。有关更多详细信息，请参阅本章笔记本中的额外材料部分。

第二列包含正类别的估计概率，因此让我们将它们传递给precision_recall_curve()函数：

y_scores_forest = y_probas_forest[:, 1]
precisions_forest, recalls_forest, thresholds_forest = precision_recall_curve(
    y_train_5, y_scores_forest)

plt.plot(recalls_forest, precisions_forest, "b-", linewidth=2,
         label="Random Forest")
plt.plot(recalls, precisions, "--", linewidth=2, label="SGD")
[...]  # beautify the figure: add labels, grid, and legend
plt.show()

正如您在图 3-8 中所看到的，RandomForestClassifier的 PR 曲线看起来比SGDClassifier的要好得多：它更接近右上角。它的 F[1]分数和 ROC AUC 分数也显著更好：

>>> y_train_pred_forest = y_probas_forest[:, 1] >= 0.5  # positive proba ≥ 50%
>>> f1_score(y_train_5, y_pred_forest)
0.9242275142688446
>>> roc_auc_score(y_train_5, y_scores_forest)
0.9983436731328145

一些 Scikit-Learn 分类器（例如LogisticRegression、RandomForestClassifier和GaussianNB）能够本地处理多个类别。其他严格的二元分类器（例如SGDClassifier和SVC）。然而，有各种策略可用于使用多个二元分类器执行多类分类。

Scikit-Learn 会检测到您尝试将二元分类算法用于多类分类任务时，并根据算法自动运行 OvR 或 OvO。让我们尝试使用sklearn.svm.SVC类中的支持向量机分类器（参见第五章）。我们只会在前 2,000 幅图像上进行训练，否则会花费很长时间：

from sklearn.svm import SVC

svm_clf = SVC(random_state=42)
svm_clf.fit(X_train[:2000], y_train[:2000])  # y_train, not y_train_5

这很容易！我们使用原始目标类别从 0 到 9（y_train）来训练SVC，而不是使用 5 对剩余目标类别（y_train_5）。由于有 10 个类别（即超过 2 个），Scikit-Learn 使用了 OvO 策略并训练了 45 个二元分类器。现在让我们对一幅图像进行预测：

>>> svm_clf.predict([some_digit])
array(['5'], dtype=object)

这是正确的！这段代码实际上进行了 45 次预测——每对类别一次——并选择了赢得最多决斗的类别。如果调用decision_function()方法，您会看到它为每个实例返回 10 个分数：每个类别一个。每个类别得分等于赢得的决斗数加上或减去一个小调整（最大±0.33）以打破平局，基于分类器的分数：

>>> some_digit_scores = svm_clf.decision_function([some_digit])
>>> some_digit_scores.round(2)
array([[ 3.79,  0.73,  6.06,  8.3 , -0.29,  9.3 ,  1.75,  2.77,  7.21,
 4.82]])

>>> class_id = some_digit_scores.argmax()
>>> class_id
5

当分类器训练完成时，它会将目标类别列表存储在其classes_属性中，按值排序。在 MNIST 的情况下，classes_数组中每个类别的索引恰好与类别本身匹配（例如，索引为 5 的类在数组中是类'5'），但通常您不会那么幸运；您需要像这样查找类标签：

>>> svm_clf.classes_
array(['0', '1', '2', '3', '4', '5', '6', '7', '8', '9'], dtype=object)
>>> svm_clf.classes_[class_id]
'5'

如果您想强制 Scikit-Learn 使用一对一或一对多，您可以使用OneVsOneClassifier或OneVsRestClassifier类。只需创建一个实例并将分类器传递给其构造函数（甚至不必是二元分类器）。例如，此代码使用 OvR 策略基于SVC创建一个多类分类器：

from sklearn.multiclass import OneVsRestClassifier

ovr_clf = OneVsRestClassifier(SVC(random_state=42))
ovr_clf.fit(X_train[:2000], y_train[:2000])

>>> ovr_clf.predict([some_digit])
array(['5'], dtype='<U1')
>>> len(ovr_clf.estimators_)
10

在多类数据集上训练SGDClassifier并使用它进行预测同样简单：

>>> sgd_clf = SGDClassifier(random_state=42)
>>> sgd_clf.fit(X_train, y_train)
>>> sgd_clf.predict([some_digit])
array(['3'], dtype='<U1')

哎呀，那是错误的。预测错误确实会发生！这次 Scikit-Learn 在幕后使用了 OvR 策略：由于有 10 个类别，它训练了 10 个二元分类器。decision_function()方法现在返回每个类别的一个值。让我们看看 SGD 分类器为每个类别分配的分数：

>>> sgd_clf.decision_function([some_digit]).round()
array([[-31893., -34420.,  -9531.,   1824., -22320.,  -1386., -26189.,
 -16148.,  -4604., -12051.]])

您可以看到分类器对其预测并不是很自信：几乎所有分数都非常负面，而类别 3 的分数为+1,824，类别 5 也不远处为-1,386。当然，您会希望对这个分类器进行多个图像的评估。由于每个类别中的图像数量大致相同，准确度指标是可以接受的。通常情况下，您可以使用cross_val_score()函数来评估模型：

>>> cross_val_score(sgd_clf, X_train, y_train, cv=3, scoring="accuracy")
array([0.87365, 0.85835, 0.8689 ])

>>> from sklearn.preprocessing import StandardScaler
>>> scaler = StandardScaler()
>>> X_train_scaled = scaler.fit_transform(X_train.astype("float64"))
>>> cross_val_score(sgd_clf, X_train_scaled, y_train, cv=3, scoring="accuracy")
array([0.8983, 0.891 , 0.9018])

如果这是一个真实的项目，您现在将按照机器学习项目清单中的步骤进行操作（请参阅附录 A）。您将探索数据准备选项，尝试多个模型，列出最佳模型，使用GridSearchCV微调其超参数，并尽可能自动化。在这里，我们假设您已经找到了一个有希望的模型，并且想要找到改进它的方法。其中一种方法是分析它所犯的错误类型。

首先，看一下混淆矩阵。为此，您首先需要使用cross_val_predict()函数进行预测；然后您可以将标签和预测传递给confusion_matrix()函数，就像您之前所做的那样。然而，由于现在有 10 个类别而不是 2 个，混淆矩阵将包含相当多的数字，可能很难阅读。

彩色混淆矩阵图表更容易分析。要绘制这样的图表，请使用ConfusionMatrixDisplay.from_predictions()函数，如下所示：

from sklearn.metrics import ConfusionMatrixDisplay

y_train_pred = cross_val_predict(sgd_clf, X_train_scaled, y_train, cv=3)
ConfusionMatrixDisplay.from_predictions(y_train, y_train_pred)
plt.show()

这将生成图 3-9 中的左侧图。这个混淆矩阵看起来相当不错：大多数图像都在主对角线上，这意味着它们被正确分类了。请注意，对角线上的第 5 行和第 5 列的单元格看起来比其他数字稍暗。这可能是因为模型在 5 上犯了更多错误，或者因为数据集中的 5 比其他数字少。这就是通过将每个值除以相应（真实）类别中图像的总数（即除以行的总和）来对混淆矩阵进行归一化的重要性。这可以通过简单地设置normalize="true"来完成。我们还可以指定values_format=".0%"参数以显示没有小数的百分比。以下代码生成图 3-9 中右侧的图表：

ConfusionMatrixDisplay.from_predictions(y_train, y_train_pred,
                                        normalize="true", values_format=".0%")
plt.show()

sample_weight = (y_train_pred != y_train)
ConfusionMatrixDisplay.from_predictions(y_train, y_train_pred,
                                        sample_weight=sample_weight,
                                        normalize="true", values_format=".0%")
plt.show()

也可以通过列而不是通过行对混淆矩阵进行归一化：如果设置normalize="pred"，你会得到图 3-10 中右边的图表。例如，你可以看到 56%的错误分类的 7 实际上是 9。

cl_a, cl_b = '3', '5'
X_aa = X_train[(y_train == cl_a) & (y_train_pred == cl_a)]
X_ab = X_train[(y_train == cl_a) & (y_train_pred == cl_b)]
X_ba = X_train[(y_train == cl_b) & (y_train_pred == cl_a)]
X_bb = X_train[(y_train == cl_b) & (y_train_pred == cl_b)]
[...]  # plot all images in X_aa, X_ab, X_ba, X_bb in a confusion matrix style

正如你所看到的，分类器错误分类的一些数字（即，左下角和右上角的块）写得非常糟糕，即使是人类也会难以分类。然而，大多数错误分类的图像对我们来说似乎是明显的错误。理解分类器为什么犯错可能很困难，但请记住，人类大脑是一个出色的模式识别系统，我们的视觉系统在任何信息到达我们的意识之前都进行了大量复杂的预处理。因此，这个任务看起来简单并不意味着它是简单的。回想一下，我们使用了一个简单的SGDClassifier，它只是一个线性模型：它只是为每个像素分配一个类别权重，当它看到一个新的图像时，它只是将加权像素强度相加以获得每个类别的得分。由于 3 和 5 之间只相差几个像素，这个模型很容易混淆它们。

到目前为止，每个实例总是被分配到一个类。但在某些情况下，您可能希望您的分类器为每个实例输出多个类。考虑一个人脸识别分类器：如果它在同一张图片中识别出几个人，它应该做什么？它应该为它识别出的每个人附上一个标签。假设分类器已经训练好了识别三张脸：Alice、Bob 和 Charlie。那么当分类器看到 Alice 和 Charlie 的图片时，它应该输出[True, False, True]（意思是“Alice 是，Bob 不是，Charlie 是”）。这样一个输出多个二进制标签的分类系统被称为多标签分类系统。

import numpy as np
from sklearn.neighbors import KNeighborsClassifier

y_train_large = (y_train >= '7')
y_train_odd = (y_train.astype('int8') % 2 == 1)
y_multilabel = np.c_[y_train_large, y_train_odd]

knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train, y_multilabel)

这段代码创建一个包含每个数字图像两个目标标签的y_multilabel数组：第一个指示数字是否大（7、8 或 9），第二个指示数字是否奇数。然后代码创建一个KNeighborsClassifier实例，支持多标签分类（并非所有分类器都支持），并使用多目标数组训练这个模型。现在您可以进行预测，并注意到它输出了两个标签：

>>> knn_clf.predict([some_digit])
array([[False,  True]])

而且它预测正确了！数字 5 确实不是大的（False）且是奇数（True）。

>>> y_train_knn_pred = cross_val_predict(knn_clf, X_train, y_multilabel, cv=3)
>>> f1_score(y_multilabel, y_train_knn_pred, average="macro")
0.976410265560605

这种方法假设所有标签都同等重要，但这可能并非总是如此。特别是，如果您有比 Bob 或 Charlie 更多的 Alice 图片，您可能希望在 Alice 图片上给分类器的分数更多的权重。一个简单的选择是为每个标签赋予一个权重，等于其支持（即具有该目标标签的实例数）。要做到这一点，只需在调用f1_score()函数时设置average="weighted"。⁠⁵

如果您希望使用不原生支持多标签分类的分类器，比如SVC，一种可能的策略是为每个标签训练一个模型。然而，这种策略可能难以捕捉标签之间的依赖关系。例如，一个大数字（7、8 或 9）是奇数的可能性是偶数的两倍，但“奇数”标签的分类器不知道“大”标签的分类器预测了什么。为了解决这个问题，模型可以被组织成一个链：当一个模型做出预测时，它使用输入特征加上链中之前所有模型的预测。

好消息是，Scikit-Learn 有一个名为ChainClassifier的类，它就是做这个的！默认情况下，它将使用真实标签进行训练，根据它们在链中的位置为每个模型提供适当的标签。但是，如果设置cv超参数，它将使用交叉验证为训练集中的每个实例获取“干净”（样本外）预测，并且这些预测将用于以后在链中训练所有模型。以下是一个示例，展示如何使用交叉验证策略创建和训练ChainClassifier。与之前一样，我们将只使用训练集中的前 2,000 幅图像以加快速度：

from sklearn.multioutput import ClassifierChain

chain_clf = ClassifierChain(SVC(), cv=3, random_state=42)
chain_clf.fit(X_train[:2000], y_multilabel[:2000])

现在我们可以使用这个ChainClassifier进行预测：

>>> chain_clf.predict([some_digit])
array([[0., 1.]])

让我们从使用 NumPy 的randint()函数向 MNIST 图像添加噪声来创建训练集和测试集。目标图像将是原始图像：

np.random.seed(42)  # to make this code example reproducible
noise = np.random.randint(0, 100, (len(X_train), 784))
X_train_mod = X_train + noise
noise = np.random.randint(0, 100, (len(X_test), 784))
X_test_mod = X_test + noise
y_train_mod = X_train
y_test_mod = X_test

knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train_mod, y_train_mod)
clean_digit = knn_clf.predict([X_test_mod[0]])
plot_digit(clean_digit)
plt.show()

² fetch_openml()返回的数据集并不总是被洗牌或分割。

⁴ Scikit-Learn 分类器总是具有decision_function()方法或predict_proba()方法，有时两者都有。

⁶ 您可以使用scipy.ndimage.interpolation模块中的shift()函数。例如，shift(image, [2, 1], cval=0)将图像向下移动两个像素，向右移动一个像素。

该模型只是输入特征GDP_per_capita的线性函数。θ[0]和θ[1]是模型的参数。

import numpy as np

np.random.seed(42)  # to make this code example reproducible
m = 100  # number of instances
X = 2 * np.random.rand(m, 1)  # column vector
y = 4 + 3 * X + np.random.randn(m, 1)  # column vector

现在让我们使用正规方程计算θ^。我们将使用 NumPy 的线性代数模块（np.linalg）中的inv()函数计算矩阵的逆，以及矩阵乘法的dot()方法：

from sklearn.preprocessing import add_dummy_feature

X_b = add_dummy_feature(X)  # add x0 = 1 to each instance
theta_best = np.linalg.inv(X_b.T @ X_b) @ X_b.T @ y

@运算符执行矩阵乘法。如果A和B是 NumPy 数组，则A @ B等同于np.matmul(A, B)。许多其他库，如 TensorFlow、PyTorch 和 JAX，也支持@运算符。但是，不能在纯 Python 数组（即列表的列表）上使用@。

>>> theta_best
array([[4.21509616],
 [2.77011339]])

>>> X_new = np.array([[0], [2]])
>>> X_new_b = add_dummy_feature(X_new)  # add x0 = 1 to each instance
>>> y_predict = X_new_b @ theta_best
>>> y_predict
array([[4.21509616],
 [9.75532293]])

import matplotlib.pyplot as plt

plt.plot(X_new, y_predict, "r-", label="Predictions")
plt.plot(X, y, "b.")
[...]  # beautify the figure: add labels, axis, grid, and legend
plt.show()

>>> from sklearn.linear_model import LinearRegression
>>> lin_reg = LinearRegression()
>>> lin_reg.fit(X, y)
>>> lin_reg.intercept_, lin_reg.coef_
(array([4.21509616]), array([[2.77011339]]))
>>> lin_reg.predict(X_new)
array([[4.21509616],
 [9.75532293]])

请注意，Scikit-Learn 将偏置项（intercept_）与特征权重（coef_）分开。LinearRegression类基于scipy.linalg.lstsq()函数（名称代表“最小二乘法”），您可以直接调用该函数：

>>> theta_best_svd, residuals, rank, s = np.linalg.lstsq(X_b, y, rcond=1e-6)
>>> theta_best_svd
array([[4.21509616],
 [2.77011339]])

这个函数计算θ^=X+y，其中X+是X的伪逆（具体来说，是 Moore-Penrose 逆）。您可以使用np.linalg.pinv()直接计算伪逆：

>>> np.linalg.pinv(X_b) @ y
array([[4.21509616],
 [2.77011339]])

伪逆本身是使用称为奇异值分解（SVD）的标准矩阵分解技术计算的，可以将训练集矩阵X分解为三个矩阵U Σ V^⊺的矩阵乘法（参见numpy.linalg.svd()）。伪逆计算为X+=VΣ+U⊺。为了计算矩阵Σ+，算法取Σ并将小于一个微小阈值的所有值设为零，然后用它们的倒数替换所有非零值，最后转置结果矩阵。这种方法比计算正规方程更有效，而且可以很好地处理边缘情况：实际上，如果矩阵X^⊺X不可逆（即奇异），例如如果m<n或者某些特征是冗余的，那么正规方程可能无法工作，但伪逆总是被定义的。

Scikit-Learn 的LinearRegression类使用的 SVD 方法大约是O(n²)。如果特征数量翻倍，计算时间大约会乘以 4。

在使用梯度下降时，您应确保所有特征具有相似的比例（例如，使用 Scikit-Learn 的StandardScaler类），否则收敛所需的时间将更长。

eta = 0.1  # learning rate
n_epochs = 1000
m = len(X_b)  # number of instances

np.random.seed(42)
theta = np.random.randn(2, 1)  # randomly initialized model parameters

for epoch in range(n_epochs):
    gradients = 2 / m * X_b.T @ (X_b @ theta - y)
    theta = theta - eta * gradients

这并不难！每次对训练集的迭代称为epoch。让我们看看得到的theta：

>>> theta
array([[4.21509616],
 [2.77011339]])

嘿，这正是正规方程找到的！梯度下降完美地工作了。但是如果您使用了不同的学习率（eta）会怎样呢？图 4-8 显示了使用三种不同学习率的梯度下降的前 20 步。每个图中底部的线代表随机起始点，然后每个迭代由越来越深的线表示。

n_epochs = 50
t0, t1 = 5, 50  # learning schedule hyperparameters

def learning_schedule(t):
    return t0 / (t + t1)

np.random.seed(42)
theta = np.random.randn(2, 1)  # random initialization

for epoch in range(n_epochs):
    for iteration in range(m):
        random_index = np.random.randint(m)
        xi = X_b[random_index : random_index + 1]
        yi = y[random_index : random_index + 1]
        gradients = 2 * xi.T @ (xi @ theta - yi)  # for SGD, do not divide by m
        eta = learning_schedule(epoch * m + iteration)
        theta = theta - eta * gradients

>>> theta
array([[4.21076011],
 [2.74856079]])

要使用 Scikit-Learn 进行随机梯度下降线性回归，您可以使用SGDRegressor类，默认情况下优化 MSE 成本函数。以下代码最多运行 1,000 个时代（max_iter）或在 100 个时代内损失下降不到 10^(–5)（tol）时停止（n_iter_no_change）。它以学习率 0.01（eta0）开始，使用默认学习计划（与我们使用的不同）。最后，它不使用任何正则化（penalty=None；稍后会详细介绍）：

from sklearn.linear_model import SGDRegressor

sgd_reg = SGDRegressor(max_iter=1000, tol=1e-5, penalty=None, eta0=0.01,
                       n_iter_no_change=100, random_state=42)
sgd_reg.fit(X, y.ravel())  # y.ravel() because fit() expects 1D targets

>>> sgd_reg.intercept_, sgd_reg.coef_
(array([4.21278812]), array([2.77270267]))

所有 Scikit-Learn 估计器都可以使用fit()方法进行训练，但有些估计器还有一个partial_fit()方法，您可以调用它来对一个或多个实例运行一轮训练（它会忽略max_iter或tol等超参数）。反复调用partial_fit()会逐渐训练模型。当您需要更多控制训练过程时，这是很有用的。其他模型则有一个warm_start超参数（有些模型两者都有）：如果您设置warm_start=True，在已训练的模型上调用fit()方法不会重置模型；它将继续训练在哪里停止，遵守max_iter和tol等超参数。请注意，fit()会重置学习计划使用的迭代计数器，而partial_fit()不会。

算法	大 m	支持离线	大 n	超参数	需要缩放	Scikit-Learn
正规方程	快	否	慢	0	否	N/A
SVD	快	否	慢	0	否	`LinearRegression`
批量梯度下降	慢	否	快	2	是	N/A
随机梯度下降	快	是	快	≥2	是	`SGDRegressor`
小批量梯度下降	快	是	快	≥2	是	N/A

np.random.seed(42)
m = 100
X = 6 * np.random.rand(m, 1) - 3
y = 0.5 * X ** 2 + X + 2 + np.random.randn(m, 1)

显然，一条直线永远无法正确拟合这些数据。因此，让我们使用 Scikit-Learn 的PolynomialFeatures类来转换我们的训练数据，将训练集中每个特征的平方（二次多项式）作为新特征添加到训练数据中（在这种情况下只有一个特征）：

>>> from sklearn.preprocessing import PolynomialFeatures
>>> poly_features = PolynomialFeatures(degree=2, include_bias=False)
>>> X_poly = poly_features.fit_transform(X)
>>> X[0]
array([-0.75275929])
>>> X_poly[0]
array([-0.75275929,  0.56664654])

X_poly现在包含了X的原始特征以及该特征的平方。现在我们可以将LinearRegression模型拟合到这个扩展的训练数据上（图 4-13）：

>>> lin_reg = LinearRegression()
>>> lin_reg.fit(X_poly, y)
>>> lin_reg.intercept_, lin_reg.coef_
(array([1.78134581]), array([[0.93366893, 0.56456263]]))

请注意，当存在多个特征时，多项式回归能够找到特征之间的关系，这是普通线性回归模型无法做到的。这是因为PolynomialFeatures还会添加给定次数的所有特征组合。例如，如果有两个特征a和b，PolynomialFeatures的degree=3不仅会添加特征a²、a³、b²和b³，还会添加组合ab、a²b和ab²。

PolynomialFeatures(degree=*d*)将包含n个特征的数组转换为包含(n + d)! / d!n!个特征的数组，其中n!是n的阶乘，等于 1 × 2 × 3 × ⋯ × n。注意特征数量的组合爆炸！

另一种方法是查看学习曲线，这是模型的训练误差和验证误差作为训练迭代的函数的图表：只需在训练集和验证集上定期评估模型，并绘制结果。如果模型无法进行增量训练（即，如果它不支持partial_fit()或warm_start），那么您必须在逐渐扩大的训练集子集上多次训练它。

Scikit-Learn 有一个有用的learning_curve()函数来帮助解决这个问题：它使用交叉验证来训练和评估模型。默认情况下，它会在不断增长的训练集子集上重新训练模型，但如果模型支持增量学习，您可以在调用learning_curve()时设置exploit_incremental_learning=True，它将逐步训练模型。该函数返回评估模型的训练集大小，以及每个大小和每个交叉验证折叠的训练和验证分数。让我们使用这个函数来查看普通线性回归模型的学习曲线（参见图 4-15）：

from sklearn.model_selection import learning_curve

train_sizes, train_scores, valid_scores = learning_curve(
    LinearRegression(), X, y, train_sizes=np.linspace(0.01, 1.0, 40), cv=5,
    scoring="neg_root_mean_squared_error")
train_errors = -train_scores.mean(axis=1)
valid_errors = -valid_scores.mean(axis=1)

plt.plot(train_sizes, train_errors, "r-+", linewidth=2, label="train")
plt.plot(train_sizes, valid_errors, "b-", linewidth=3, label="valid")
[...]  # beautify the figure: add labels, axis, grid, and legend
plt.show()

from sklearn.pipeline import make_pipeline

polynomial_regression = make_pipeline(
    PolynomialFeatures(degree=10, include_bias=False),
    LinearRegression())

train_sizes, train_scores, valid_scores = learning_curve(
    polynomial_regression, X, y, train_sizes=np.linspace(0.01, 1.0, 40), cv=5,
    scoring="neg_root_mean_squared_error")
[...]  # same as earlier

在执行岭回归之前，重要的是对数据进行缩放（例如，使用StandardScaler），因为它对输入特征的规模敏感。这对大多数正则化模型都是正确的。

图 4-17 显示了在一些非常嘈杂的线性数据上使用不同α值训练的几个岭模型。在左侧，使用普通的岭模型，导致线性预测。在右侧，首先使用PolynomialFeatures(degree=10)扩展数据，然后使用StandardScaler进行缩放，最后将岭模型应用于生成的特征：这是带有岭正则化的多项式回归。请注意，增加α会导致更平缓（即，更不极端，更合理）的预测，从而减少模型的方差但增加其偏差。

>>> from sklearn.linear_model import Ridge
>>> ridge_reg = Ridge(alpha=0.1, solver="cholesky")
>>> ridge_reg.fit(X, y)
>>> ridge_reg.predict([[1.5]])
array([[1.55325833]])

>>> sgd_reg = SGDRegressor(penalty="l2", alpha=0.1 / m, tol=None,
...                        max_iter=1000, eta0=0.01, random_state=42)
...
>>> sgd_reg.fit(X, y.ravel())  # y.ravel() because fit() expects 1D targets
>>> sgd_reg.predict([[1.5]])
array([1.55302613])

penalty超参数设置要使用的正则化项的类型。指定"l2"表示您希望 SGD 将正则化项添加到 MSE 成本函数中，等于alpha乘以权重向量的ℓ[2]范数的平方。这就像岭回归一样，只是在这种情况下没有除以m；这就是为什么我们传递alpha=0.1 / m，以获得与Ridge(alpha=0.1)相同的结果。

RidgeCV类也执行岭回归，但它会自动使用交叉验证调整超参数。它大致相当于使用GridSearchCV，但它针对岭回归进行了优化，并且运行快得多。其他几个估计器（主要是线性的）也有高效的 CV 变体，如LassoCV和ElasticNetCV。

这里有一个使用Lasso类的小型 Scikit-Learn 示例：

>>> from sklearn.linear_model import Lasso
>>> lasso_reg = Lasso(alpha=0.1)
>>> lasso_reg.fit(X, y)
>>> lasso_reg.predict([[1.5]])
array([1.53788174])

请注意，您也可以使用SGDRegressor(penalty="l1", alpha=0.1)。

这里有一个使用 Scikit-Learn 的ElasticNet的简短示例（l1_ratio对应混合比例r）：

>>> from sklearn.linear_model import ElasticNet
>>> elastic_net = ElasticNet(alpha=0.1, l1_ratio=0.5)
>>> elastic_net.fit(X, y)
>>> elastic_net.predict([[1.5]])
array([1.54333232])

from copy import deepcopy
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

X_train, y_train, X_valid, y_valid = [...]  # split the quadratic dataset

preprocessing = make_pipeline(PolynomialFeatures(degree=90, include_bias=False),
                              StandardScaler())
X_train_prep = preprocessing.fit_transform(X_train)
X_valid_prep = preprocessing.transform(X_valid)
sgd_reg = SGDRegressor(penalty=None, eta0=0.002, random_state=42)
n_epochs = 500
best_valid_rmse = float('inf')

for epoch in range(n_epochs):
    sgd_reg.partial_fit(X_train_prep, y_train)
    y_valid_predict = sgd_reg.predict(X_valid_prep)
    val_error = mean_squared_error(y_valid, y_valid_predict, squared=False)
    if val_error < best_valid_rmse:
        best_valid_rmse = val_error
        best_model = deepcopy(sgd_reg)

这段代码首先添加多项式特征并缩放所有输入特征，对于训练集和验证集都是如此（代码假定您已将原始训练集分成较小的训练集和验证集）。然后它创建一个没有正则化和较小学习率的SGDRegressor模型。在训练循环中，它调用partial_fit()而不是fit()，以执行增量学习。在每个时代，它测量验证集上的 RMSE。如果低于迄今为止看到的最低 RMSE，则将模型的副本保存在best_model变量中。这个实现实际上并没有停止训练，但它允许您在训练后返回到最佳模型。请注意，使用copy.deepcopy()复制模型，因为它同时复制了模型的超参数和学习参数。相比之下，sklearn.base.clone()只复制模型的超参数。

>>> from sklearn.datasets import load_iris
>>> iris = load_iris(as_frame=True)
>>> list(iris)
['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names',
 'filename', 'data_module']
>>> iris.data.head(3)
 sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
0                5.1               3.5                1.4               0.2
1                4.9               3.0                1.4               0.2
2                4.7               3.2                1.3               0.2
>>> iris.target.head(3)  # note that the instances are not shuffled
0    0
1    0
2    0
Name: target, dtype: int64
>>> iris.target_names
array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X = iris.data[["petal width (cm)"]].values
y = iris.target_names[iris.target] == 'virginica'
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

log_reg = LogisticRegression(random_state=42)
log_reg.fit(X_train, y_train)

X_new = np.linspace(0, 3, 1000).reshape(-1, 1)  # reshape to get a column vector
y_proba = log_reg.predict_proba(X_new)
decision_boundary = X_new[y_proba[:, 1] >= 0.5][0, 0]

plt.plot(X_new, y_proba[:, 0], "b--", linewidth=2,
         label="Not Iris virginica proba")
plt.plot(X_new, y_proba[:, 1], "g-", linewidth=2, label="Iris virginica proba")
plt.plot([decision_boundary, decision_boundary], [0, 1], "k:", linewidth=2,
         label="Decision boundary")
[...] # beautify the figure: add grid, labels, axis, legend, arrows, and samples
plt.show()

Iris virginica花朵的花瓣宽度（表示为三角形）范围从 1.4 厘米到 2.5 厘米，而其他鸢尾花（用方块表示）通常具有较小的花瓣宽度，范围从 0.1 厘米到 1.8 厘米。请注意，存在一些重叠。大约在 2 厘米以上，分类器非常确信花朵是Iris virginica（输出该类的高概率），而在 1 厘米以下，它非常确信它不是Iris virginica（“非 Iris virginica”类的高概率）。在这两个极端之间，分类器不确定。但是，如果要求它预测类别（使用predict()方法而不是predict_proba()方法），它将返回最有可能的类别。因此，在大约 1.6 厘米处有一个决策边界，两个概率都等于 50%：如果花瓣宽度大于 1.6 厘米，分类器将预测花朵是Iris virginica，否则它将预测它不是（即使它不太自信）：

>>> decision_boundary
1.6516516516516517
>>> log_reg.predict([[1.7], [1.5]])
array([ True, False])

控制 Scikit-Learn LogisticRegression模型正则化强度的超参数不是alpha（像其他线性模型一样），而是它的倒数：C。C值越高，模型的正则化就越少。

让我们使用 softmax 回归将鸢尾花分类为所有三类。当你在多于两类上训练 Scikit-Learn 的LogisticRegression分类器时，它会自动使用 softmax 回归（假设你使用solver="lbfgs"，这是默认值）。它还默认应用ℓ[2]正则化，你可以使用之前提到的超参数C来控制：

X = iris.data[["petal length (cm)", "petal width (cm)"]].values
y = iris["target"]
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

softmax_reg = LogisticRegression(C=30, random_state=42)
softmax_reg.fit(X_train, y_train)

>>> softmax_reg.predict([[5, 2]])
array([2])
>>> softmax_reg.predict_proba([[5, 2]]).round(2)
array([[0.  , 0.04, 0.96]])

¹⁰ 或者，您可以使用Ridge类与"sag"求解器。随机平均梯度下降是随机梯度下降的一种变体。有关更多详细信息，请参阅由不列颠哥伦比亚大学的 Mark Schmidt 等人提出的演示“使用随机平均梯度算法最小化有限和”。

¹³ NumPy 的reshape()函数允许一个维度为-1，表示“自动”：该值是从数组的长度和剩余维度推断出来的。

支持向量机对特征的尺度敏感，如您可以在图 5-2 中看到。在左图中，垂直尺度远大于水平尺度，因此最宽可能的街道接近水平。经过特征缩放（例如，使用 Scikit-Learn 的StandardScaler），右图中的决策边界看起来好多了。

在使用 Scikit-Learn 创建 SVM 模型时，您可以指定几个超参数，包括正则化超参数C。如果将其设置为较低的值，则会得到左侧图 5-4 中的模型。如果设置为较高的值，则会得到右侧的模型。正如您所看到的，减少C会使街道变宽，但也会导致更多的间隔违规。换句话说，减少C会导致更多的实例支持街道，因此过拟合的风险较小。但是，如果减少得太多，那么模型最终会欠拟合，就像这里的情况一样：C=100的模型看起来比C=1的模型更容易泛化。

如果您的 SVM 模型过拟合，可以尝试通过减少C来对其进行正则化。

以下 Scikit-Learn 代码加载了鸢尾花数据集，并训练了一个线性 SVM 分类器来检测Iris virginica花。该流水线首先对特征进行缩放，然后使用LinearSVC和C=1进行训练：

from sklearn.datasets import load_iris
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

iris = load_iris(as_frame=True)
X = iris.data[["petal length (cm)", "petal width (cm)"]].values
y = (iris.target == 2)  # Iris virginica

svm_clf = make_pipeline(StandardScaler(),
                        LinearSVC(C=1, random_state=42))
svm_clf.fit(X, y)

>>> X_new = [[5.5, 1.7], [5.0, 1.5]]
>>> svm_clf.predict(X_new)
array([ True, False])

>>> svm_clf.decision_function(X_new)
array([ 0.66163411, -0.22036063])

与LogisticRegression不同，LinearSVC没有predict_proba()方法来估计类概率。也就是说，如果您使用SVC类（稍后讨论）而不是LinearSVC，并将其probability超参数设置为True，那么模型将在训练结束时拟合一个额外的模型，将 SVM 决策函数分数映射到估计概率。在幕后，这需要使用 5 倍交叉验证为训练集中的每个实例生成样本外预测，然后训练一个LogisticRegression模型，因此会显著减慢训练速度。之后，predict_proba()和predict_log_proba()方法将可用。

要使用 Scikit-Learn 实现这个想法，您可以创建一个包含PolynomialFeatures转换器（在“多项式回归”中讨论）、StandardScaler和LinearSVC分类器的流水线。让我们在 moons 数据集上测试这个流水线，这是一个用于二元分类的玩具数据集，其中数据点呈两个交错新月形状（参见图 5-6）。您可以使用make_moons()函数生成这个数据集：

from sklearn.datasets import make_moons
from sklearn.preprocessing import PolynomialFeatures

X, y = make_moons(n_samples=100, noise=0.15, random_state=42)

polynomial_svm_clf = make_pipeline(
    PolynomialFeatures(degree=3),
    StandardScaler(),
    LinearSVC(C=10, max_iter=10_000, random_state=42)
)
polynomial_svm_clf.fit(X, y)

幸运的是，在使用 SVM 时，你可以应用一种几乎神奇的数学技术，称为核技巧（稍后在本章中解释）。核技巧使得可以获得与添加许多多项式特征相同的结果，即使是非常高次的，而无需实际添加它们。这意味着特征数量不会组合爆炸。这个技巧由SVC类实现。让我们在 moons 数据集上测试一下：

from sklearn.svm import SVC

poly_kernel_svm_clf = make_pipeline(StandardScaler(),
                                    SVC(kernel="poly", degree=3, coef0=1, C=5))
poly_kernel_svm_clf.fit(X, y)

这段代码使用三次多项式核训练了一个 SVM 分类器，左侧在图 5-7 中表示。右侧是另一个使用十次多项式核的 SVM 分类器。显然，如果你的模型出现过拟合，你可能需要降低多项式次数。相反，如果出现欠拟合，你可以尝试增加它。超参数coef0控制模型受高次项和低次项影响的程度。

与多项式特征方法一样，相似性特征方法可以与任何机器学习算法一起使用，但计算所有额外特征可能会很昂贵（尤其是在大型训练集上）。再次，核技巧发挥了 SVM 的魔力，使得可以获得与添加许多相似性特征相同的结果，但实际上并没有这样做。让我们尝试使用高斯 RBF 核的SVC类：

rbf_kernel_svm_clf = make_pipeline(StandardScaler(),
                                   SVC(kernel="rbf", gamma=5, C=0.001))
rbf_kernel_svm_clf.fit(X, y)

这个模型在图 5-9 的左下角表示。其他图显示了使用不同超参数gamma（γ）和C训练的模型。增加gamma会使钟形曲线变窄（参见图 5-8 中的左侧图）。因此，每个实例的影响范围更小：决策边界最终变得更加不规则，围绕个别实例摆动。相反，较小的gamma值会使钟形曲线变宽：实例的影响范围更大，决策边界变得更加平滑。因此，γ就像一个正则化超参数：如果你的模型过拟合，应该减小γ；如果欠拟合，应该增加γ（类似于C超参数）。

有这么多核可供选择，你如何决定使用哪一个？作为一个经验法则，你应该始终首先尝试线性核。LinearSVC类比SVC(kernel="linear")快得多，特别是当训练集非常大时。如果不太大，你也应该尝试核化的 SVM，首先使用高斯 RBF 核；它通常效果很好。然后，如果你有多余的时间和计算能力，你可以尝试使用一些其他核进行超参数搜索。如果有专门针对你的训练集数据结构的核，也要试一试。

LinearSVC类基于liblinear库，该库实现了线性 SVM 的优化算法。⁠¹ 它不支持核技巧，但随着训练实例数量和特征数量的增加，它的缩放几乎是线性的。其训练时间复杂度大约为O(m × n)。如果需要非常高的精度，算法会花费更长的时间。这由容差超参数ϵ（在 Scikit-Learn 中称为tol）控制。在大多数分类任务中，默认容差是可以接受的。

SVC类基于libsvm库，该库实现了一个支持核技巧的算法。⁠² 训练时间复杂度通常在O(m² × n)和O(m³ × n)之间。不幸的是，这意味着当训练实例数量变大时（例如，数十万个实例），算法会变得非常慢，因此这个算法最适合小型或中等大小的非线性训练集。它对特征数量的缩放效果很好，特别是对于稀疏特征（即每个实例具有很少的非零特征）。在这种情况下，算法的缩放大致与每个实例的平均非零特征数量成比例。

SGDClassifier类默认也执行大边距分类，其超参数，特别是正则化超参数（alpha和penalty）和learning_rate，可以调整以产生与线性 SVM 类似的结果。它使用随机梯度下降进行训练（参见第四章），允许增量学习并且使用很少的内存，因此可以用于在 RAM 中无法容纳的大型数据集上训练模型（即用于外存学习）。此外，它的缩放非常好，因为其计算复杂度为O(m × n)。表 5-1 比较了 Scikit-Learn 的 SVM 分类类。

类别	时间复杂度	外存支持	需要缩放	核技巧
`LinearSVC`	O(m × n)	否	是	否
`SVC`	O(m² × n) 到 O(m³ × n)	否	是	是
`SGDClassifier`	O(m × n)	是	是	否

您可以使用 Scikit-Learn 的LinearSVR类执行线性 SVM 回归。以下代码生成了左侧图中表示的模型图 5-10：

from sklearn.svm import LinearSVR

X, y = [...]  # a linear dataset
svm_reg = make_pipeline(StandardScaler(),
                        LinearSVR(epsilon=0.5, random_state=42))
svm_reg.fit(X, y)

为了处理非线性回归任务，您可以使用核化的 SVM 模型。图 5-11 显示了在随机二次训练集上使用二次多项式核进行 SVM 回归。左图中有一些正则化（即较小的C值），右图中的正则化要少得多（即较大的C值）。

以下代码使用 Scikit-Learn 的SVR类（支持核技巧）生成了左侧图中表示的模型图 5-11：

from sklearn.svm import SVR

X, y = [...]  # a quadratic dataset
svm_poly_reg = make_pipeline(StandardScaler(),
                             SVR(kernel="poly", degree=2, C=0.01, epsilon=0.1))
svm_poly_reg.fit(X, y)

SVR类是SVC类的回归等价物，LinearSVR类是LinearSVC类的回归等价物。LinearSVR类与训练集的大小呈线性比例（就像LinearSVC类一样），而SVR类在训练集增长非常大时变得非常慢（就像SVC类一样）。

线性 SVM 分类器通过首先计算决策函数θ^⊺ x = θ[0] x[0] + ⋯ + θ[n] x[n]来预测新实例x的类别，其中x[0]是偏置特征（始终等于 1）。如果结果为正，则预测的类别ŷ为正类（1）；否则为负类（0）。这与LogisticRegression（在第四章中讨论）完全相同。

为了得到软间隔目标，我们需要为每个实例引入一个松弛变量 ζ^((i)) ≥ 0：⁠³ ζ^((i))衡量第i个实例允许违反边界的程度。现在我们有两个相互冲突的目标：尽量减小松弛变量以减少边界违规，同时尽量减小½ w^⊺ w以增加边界。这就是C超参数的作用：它允许我们定义这两个目标之间的权衡。这给我们带来了方程 5-2 中的约束优化问题。

使用 QP 求解器是训练 SVM 的一种方法。另一种方法是使用梯度下降来最小化铰链损失或平方铰链损失（见图 5-13）。给定正类别（即，t=1）的实例x，如果决策函数的输出s（s = w^⊺ x + b）大于或等于 1，则损失为 0。这发生在实例偏离街道并位于正侧时。给定负类别（即，t=-1）的实例，如果s ≤ -1，则损失为 0。这发生在实例偏离街道并位于负侧时。实例距离正确边界越远，损失越高：对于铰链损失，它线性增长，对于平方铰链损失，它二次增长。这使得平方铰链损失对异常值更敏感。但是，如果数据集干净，它往往会更快地收敛。默认情况下，LinearSVC使用平方铰链损失，而SGDClassifier使用铰链损失。这两个类允许您通过将loss超参数设置为"hinge"或"squared_hinge"来选择损失。SVC类的优化算法找到了与最小化铰链损失类似的解。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

第三章：分类

MNIST

图 3-1。MNIST 图像示例

图 3-2。来自 MNIST 数据集的数字

训练二元分类器

性能指标

使用交叉验证测量准确率

混淆矩阵

方程 3-1。精度

方程 3-2。回想一下

图 3-3。一个说明混淆矩阵的示例，显示真负例（左上）、假正例（右上）、假阴性（左下）和真正例（右下）

精度和召回率

方程 3-3。F[1]分数

精度/召回率权衡

图 3-4。精度/召回率权衡：图像按其分类器得分排名，高于所选决策阈值的图像被视为正例；阈值越高，召回率越低，但（一般而言）精度越高

图 3-5. 精度和召回率与决策阈值

注意

图 3-6. 精度与召回率

提示

ROC 曲线

图 3-7。ROC 曲线绘制了所有可能阈值的假阳性率与真阳性率之间的关系；黑色圆圈突出显示了选择的比率（在 90%精确度和 48%召回率处）

提示

警告

图 3-8。比较 PR 曲线：随机森林分类器优于 SGD 分类器，因为其 PR 曲线更接近右上角，并且具有更大的 AUC

多类分类

错误分析

图 3-9。混淆矩阵（左）和相同的通过行归一化的 CM（右）

图 3-10。仅显示错误的混淆矩阵，通过行归一化（左）和通过列归一化（右）

图 3-11。一些 3 和 5 的图像以混淆矩阵的方式组织

多标签分类

多输出分类

注意

图 3-12. 一幅嘈杂的图像（左）和目标干净图像（右）

图 3-13. 清理后的图像

练习

第四章：训练模型

警告

线性回归

方程 4-1。线性回归模型预测

方程 4-2. 线性回归模型预测（矢量化形式）

注意

警告

方程 4-3. 线性回归模型的 MSE 成本函数

正规方程

方程 4-4. 正规方程

图 4-1. 随机生成的线性数据集

注意

图 4-2. 线性回归模型预测

计算复杂度

警告

梯度下降

图 4-3。在这个梯度下降的描述中，模型参数被随机初始化，并不断调整以最小化成本函数；学习步长大小与成本函数的斜率成比例，因此随着成本接近最小值，步长逐渐变小

图 4-4。学习率太小

图 4-5。学习率太高

图 4-6。梯度下降的陷阱

图 4-7。特征缩放的梯度下降（左）和不缩放的梯度下降（右）

警告

批量梯度下降

方程 4-5. 成本函数的偏导数

方程 4-6. 成本函数的梯度向量

警告

方程 4-7. 梯度下降步骤

图 4-8. 不同学习率的梯度下降

随机梯度下降

图 4-9。使用随机梯度下降，每个训练步骤比使用批量梯度下降快得多，但也更不规则。

图 4-10。随机梯度下降的前 20 步

警告

提示

小批量梯度下降

图 4-11. 参数空间中的梯度下降路径

多项式回归

图 4-12。生成的非线性和嘈杂数据集

图 4-13。多项式回归模型预测

警告

学习曲线

图 4-14。高次多项式回归

图 4-15. 学习曲线

提示

图 4-16. 10 次多项式模型的学习曲线

提示