【人工智能Ⅰ】实验6：回归预测实验

本文介绍: 最终的处理结果如下图所示。最终结果如下图所示，其中蓝色的数据点表示数据来自训练集，橙色的数据点表示数据来自验证集，绿色的数据点表示数据来自测试集，红色的y=x 直线为预测结果与真实值相等的标准直线。整体代码和计算结果如下图所示，图1为调用机器学习依赖的代码，图2为验证集和测试集的均方根误差结果和R2结果。同时，通过绘制每个指标的箱型图，我们可以直观地感受数据的分布和可能的离群点。最终结果如下图所示，图1为训练集结果，图2为验证集结果，图3为测试集结果，其中红色的直线为使用线性回归模型拟合的回归线。

一、实验目的

1：了解机器学习中数据集的常用划分方法以及划分比例，并学习数据集划分后训练集、验证集及测试集的作用。

2：了解降维方法和回归模型的应用。

二、实验要求

数据集（LUCAS.SOIL_co r r-实验6数据.e xl）为 LUCAS 土壤数据集，每一行代表一个样本，每一列代表一个特征，特征包含近红外光谱波段数据（s pc列）和土壤理化指标。

1. 对数据集进行降维处理。

2. 统计各土壤理化指标的最大值、最小值、均值、中位数，并绘制各指标的箱型图。

4. 打印训练集和验证集的R2和RMSE。

三、实验结果

1：利用PCA进行降维

在任务1中，本实验采用主成分分析（PCA）方法对数据进行降维，整体维度从1201个降低到500个。降维结束后打印数据维度的变化，如下图所示。

2：统计各个指标的数据并绘制箱型图

在任务2中，本实验采用 agg方法对数据进行聚合操作。首先从数据中选择包含了理化指标的列名的列表，然后利用 agg方法对目标列进行了多个聚合操作，最终生成了最大值、最小值、均值和中位数的结果，并保存到summary _stat s 这个二维数据结构之中。最终的处理结果如下图所示。

同时，本实验采用 p lo t方法，分别生成了离群点未剔除和剔除后的箱型图。两种情况的最终结果如下图所示，图1为离群点未剔除，图2为离群点剔除。

3：划分数据集，使用偏最小二乘回归法预测 pH.in.H2O指标含量

在任务3中，本实验以8：1：1的比例，将数据集随机划分成为训练集、验证集及测试集。

此外，本实验调用机器学习库中的偏最小二乘回归法，通过训练X_train和y_train来预测验证集和测试集的pH.in.H2O指标含量结果。整体代码如下图所示。

4：打印训练集和验证集的R2 和 RMSE

在任务4中，本实验调用机器学习库中的m e an_squa red_error 函数和r2_score 函数来计算验证集和测试集上的均方根误差结果和R2结果。整体代码和计算结果如下图所示，图1为调用机器学习依赖的代码，图2为验证集和测试集的均方根误差结果和R2结果。

在任务5中，本实验汇总了模型在训练集、验证集、测试集上的整体表现结果，并进行了绘图展示。最终结果如下图所示，其中蓝色的数据点表示数据来自训练集，橙色的数据点表示数据来自验证集，绿色的数据点表示数据来自测试集，红色的y=x直线为预测结果与真实值相等的标准直线。

同时，本实验也分别对训练集、验证集、测试集散点图进行了散点图绘制和线性回归模型拟合。最终结果如下图所示，图1为训练集结果，图2为验证集结果，图3为测试集结果，其中红色的直线为使用线性回归模型拟合的回归线。

问题1：一开始设置的主成分个数过小（n_components=10），验证集和测试集的R2结果只能达到0.5左右，实验得到的相关性不够好。

解决1：增大主成分个数，并发现当n_components过百后结果较好，此时验证集和测试集的R2结果可以达到0.7+。

问题2：一开始进行特征列选择的时候全选了excel 表格的所有列，导致模型直接以因变量进行拟合，验证集和测试集的R2高达0.99。结果如下图所示。

解决2：上述结果显然不符合箱型图的离散点情况。在经过一定分析之后，得知需要在选择需要进行PCA降维的特征列中，排除最后4列理化指标。即把代码更改为【select e d_columns = data.columns[:-4].t o list()】。

五、实验总结和心得

1：在计算模型评价机制的时候，m ean_squar e d_error 函数中的squar e d 参数用于控制均方误差（MSE）的计算方式。当square d=Tr ue时，它表示计算的是均方误差的平方值，即MSE。而当squared=Fals e时，它表示计算的是均方根误差（RMSE），即MSE的平方根。