Python机器学习：一文讲透机器学习中的验证集法

本文介绍: 验证集法又被称为“留出法”，基本思路是将样本数据集划分为两个互斥的集合：训练集和测试集。其中训练集占比一般为2/3~4/5，常用70%；测试集占比一般为1/5~1/3，常用30%。训练集用来构建机器学习模型；测试集也被称为“验证集”“保留集”，用来进行样本外预测，并计算测试集误差，估计模型预测能力。

验证集法又被称为“留出法”，基本思路是将样本数据集划分为两个互斥的集合：训练集和测试集。其中训练集占比一般为2/3~4/5，常用70%；测试集占比一般为1/5~1/3，常用30%。训练集用来构建机器学习模型；测试集也被称为“验证集”“保留集”，用来进行样本外预测，并计算测试集误差，估计模型预测能力。

验证集法的优点在于简单方便，但是也有自身劣势。一方面，验证集法的稳定性不足。验证集法的结果与随机分组高度相关，如果使用不同的随机数种子将数据分为不同的训练集和测试集，测试误差的波动可能会比较大。所以，在实施验证集法时，在训练集和测试集的划分方面需要注意保持数据分布的一致性，避免因样本集的划分而产生额外偏差，比如针对分类问题监督式学习，样本全集中有一个确定的正例/反例比例，假定为90%/10%，而如果在抽取的训练集中正例/反例比例为50%/50%，那么显然就会因样本集的划分产生较大的额外偏差，显著影响模型的泛化能力。

另一方面，验证集法的信息损失较为明显。因为我们评估的是使用训练集训练得到的模型，如果训练集比较大，接近样本全集，那么就能够更好地利用样本全集信息，得到的也更接近使用样本全集训练模型的结果，但是必然会造成测试集的过小，不可避免地会影响对模型泛化能力的评价；而如果训练集比较小，其中的样本较少，那么就大概率不能很好地利用样本全集信息，会产生较大的拟合偏差，也会影响对模型泛化能力的评价。

很多朋友反映学Python、学机器学习比较难、效果不好，我的观点是：需要拿到Python、机器学习的源代码边学习边操作，从解决问题、上手操作中获得成就感，才会越学越深入，学习效果才会好。

针对数据分析或机器学习推荐两本入门级的图书：《Python机器学习原理与算法实现》（杨维忠张甜著 2023年2月新书清华大学出版社）《Python数据科学应用从入门到精通》（张甜杨维忠著 2023年11月新书清华大学出版社）。这两本书的特色是在数据分析、机器学习各种算法的介绍方面通俗易懂，较少涉及数学推导，对数学基础要求相对不高，在python代码方面讲的很细致，看了以后根据自身需要选取算法、优化代码、科学调参。

《Python机器学习原理与算法实现》（杨维忠张甜著 2023年2月新书清华大学出版社）内容非常详实，包含了Python和机器学习，相当于一次获得了两本书。在讲解各类机器学习算法时，逐一详解用到的各种Python代码，针对每行代码均有恰当注释（这一点基本上是大多数书目做不到的）。《Python机器学习原理与算法实现》一书创作完成后，在正式出版之前，已经开发成一套系统课程，分9次授课，在某银行内部开展了培训，490人根据行内组织统一学习，授课完成后放在知鸟平台供回放学习，9次课程累计回放量近3万次，得到参训学员的一致好评，广泛应用于各位学员的工作实践。（所以，这是一本避雷避坑、已经被亲测可行的网红书，只要用心学，都没问题哦）。