模式识别与机器学习（七）：集成学习

本文介绍: 例如，如果有5个个体学习器，它们的权重分别为[0.2, 0.3, 0.1, 0.2, 0.2]，则最终的预测结果是将个体学习器的预测结果乘以对应的权重后相加得到的。每个个体学习器对样本进行预测后，最终的预测结果是通过对个体学习器的预测结果进行平均得到的。然后，我们将数据集拆分为训练集和测试集。在集成学习中，个体学习器可以是同质的（使用相同的学习算法，但在不同的训练集上训练）或异质的（使用不同的学习算法）。每个基本学习器都是在不同的训练集上独立训练得到的，最后通过集成基本学习器的预测结果来进行最终的预测。

在这里插入图片描述

集成学习是一种机器学习方法，旨在通过组合多个个体学习器的预测结果来提高整体的预测性能。它通过将多个弱学习器（个体学习器）组合成一个强学习器，以获得更准确、更稳定的预测结果。

在集成学习中，个体学习器可以是同质的（使用相同的学习算法，但在不同的训练集上训练）或异质的（使用不同的学习算法）。集成学习的核心思想是通过个体学习器之间的合作和协同来提高整体的预测性能。
在这里插入图片描述

集成学习可以分为两种主要类型：b a g gin g和boost in g。

集成策略是集成方法中用于合并个体学习器预测结果的策略。它决定了如何将个体学习器的预测结果组合起来得到最终的集成预测结果。下面是一些常见的集成策略：

from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 生成一个示例数据集
X, y = make_classification(n_samples=100, n_features=10, random_state=42)

# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建AdaBoost分类器
clf = AdaBoostClassifier(n_estimators=50, random_state=42)

# 在训练集上拟合分类器
clf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

在这个示例中，我们首先使用make_classification函数生成一个包含100个样本和10个特征的示例数据集。然后，我们将数据集拆分为训练集和测试集。接下来，我们创建一个AdaBoost分类器，并使用训练集对其进行拟合。最后，我们使用测试集进行预测，并计算预测准确率。

from sklearn.ensemble import BaggingClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

# 生成一个示例数据集
X, y = make_classification(n_samples=100, n_features=10, random_state=42)

# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建基本学习器（决策树）
base_estimator = DecisionTreeClassifier()

# 创建Bagging分类器
clf = BaggingClassifier(base_estimator=base_estimator, n_estimators=50, random_state=42)

# 在训练集上拟合分类器
clf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

在这个示例中，我们首先使用make_classification函数生成一个包含100个样本和10个特征的示例数据集。然后，我们将数据集拆分为训练集和测试集。接下来，我们创建一个基本学习器（这里使用决策树），并使用基本学习器创建一个Bagging分类器。最后，我们使用训练集对Bagging分类器进行拟合，并使用测试集进行预测，计算预测准确率。

from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 定义三个不同的分类器
clf1 = DecisionTreeClassifier(random_state=42)
clf2 = KNeighborsClassifier()
clf3 = SVC(probability=True)

# 定义投票分类器
voting_clf = VotingClassifier(estimators=[('dt', clf1), ('knn', clf2), ('svc', clf3)], voting='hard')

# 训练投票分类器
voting_clf.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = voting_clf.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print("准确率：", accuracy)

在这个示例中，我们使用了三个不同的分类器（决策树、K近邻和支持向量机）来构建一个投票分类器。通过VotingClassifier类，我们将这三个分类器组合在一起，并使用voting='hard'来指定使用硬投票策略。然后，我们使用训练集对投票分类器进行训练，并在测试集上进行预测。最后，我们使用accuracy_score函数计算预测结果的准确率。