本文介绍: 针对自建数据集,yolov5模型训练速度很慢的可能原因和解决方法

    博主电脑配置是AMD R5 3600,Nvidia RTX3060 12G,16G 3200MHz内存训练数据集是自建数据集,大约1200张图片,3个检测目标

    训练YOLOv5-5.0版本模型参数设置模型yolov5sepoch 150(如果想要更好mAP@0.5:0.95指标可以设置的更大,博主这个收敛的太快了就没设太多),batchsize 32或者64,imgsize 640,640,其他均为默认

    在最初训练模型的时候训练一次epoch大约需要3分钟,而且不管怎么设置参数训练时间都不会改变太多,都在3分钟左右,博主期初是因为自己没用GPU跑,但是显存是实实在在的吃满了,但利率用始终在0%和4%之间波动,大多数还是在0%,博主百思不得其解,百度了许多方法都没有用,看了大部分博主文章然后看了看运行时候的内存,CPU和GPU,发现CPU使用率不高,但是内存显存占用很高,那么也就排除了在用CPU跑模型的情况,思来想去大概是出在数据读取上。下面来介绍一些训练模型速度慢可能的原因和解决方法:

    1.GPU太差

    博主之前用的自己的GTX960m的确跑不起来,如果自己显卡太老,显存太低,要么降低batchsizeworker,还有imgsize要么就换一张显卡。三个参数设置train.py设置代码如图

    2.没用到GPU,完全是CPU在跑

    这种情况也很好发现,只需要看看显存是否占用或者有没有安装pytorchcuda可以如下代码查看是否装了pytorchcuda,怎么安装很多博主已经介绍过了,随便一查一大堆。

import torch

print(torch.__version__)
torch.cuda.is_available()

    上面代码结果下图说明正确安装CUDA和pytorch(记得要版本对应,不然会报错最好把cudnn也装上。

 

    如果是CPU在训练可以设置下面的代码更换GPU训练模型default设置成你GPU的编号就行,单显卡就是0。

    3.训练瓶颈

    3.1 CPU瓶颈

    CPU瓶颈很好判断,那就是CPU占用率很高,同时GPU也在使用,这说明电脑CPU太差了。设置参数,尽量不让CPU占用率超过85%。

    3.2 内存瓶颈

    简单来说就是内存爆了,基本上不存在内存频率跟不上的,同样设置参数,内存占用也尽量不要超过85%-90%。

    3.3 IO瓶颈

    这种情况会复杂很多,这个IO可能是硬盘读到内存导致的,也有可能是从内存到GPU导致的,也有可能是读写记录的时候导致的,反正杂七杂八的,最难看出哪里出了问题

    对于以上三种瓶颈可以通过瓶颈测试工具测试出来,具体方法下面的博客说的很清楚。

(24条消息) PyTorch消除训练瓶颈 提速技巧_*pprp*的博客-CSDN博客

    对于前两种瓶颈,都可以通过设置batchsizeworkersimgsize尝试解决,或者更换yolov5的模型使用最小yolov5s来训练,如果以上方法解决不了,建议更换硬件或者租用云服务器。对于第三种情况基本只能通过预读取数据和更换硬件实现

    4.性能过剩      

    对,你没有看错,性能过剩也会导致Yolov5训练速度过慢,原因也很让人无语,在train.py中有这样一行代码,这行代码旨在将数据读到内存中进行缓存,这样就可以更快的存取数据。

    这样读取数据就可以让正在工作的GPU计算完数据后不会因为硬盘读写太慢而等待数据读入,所以硬盘的读取很重要,训练过程中,数据首先从硬盘读入到内存,然后再从内存读取到CPU或者GPU,所以一块好的硬盘可以有效的加速模型的训练,特别是笔记本硬盘,笔记本硬盘读取速度很慢建议把数据放入SSD中。那么问题来了,如果GPU计算速度超过了从硬盘读入内存,再从内存读入GPU的速度,并且硬盘的读取速度够快,会发生什么,这也是导致博主训练速度太慢的原因。

    对于小批量数据(很多自建数据都是小批量数据),一两千张,检测目标数不多,模型复杂的情况下,对于高端显卡或者专业图形卡都是小case基本都用不到多少算力,GPU很快就计算完了一个batch的数据,这时候就要等待数据读入,如果硬盘读写够快,数据从硬盘读入内存,GPU再从内存读出,相较于直接从硬盘读入GPU,本来用作缓存的内存反而成了额外的开销,数据绕了远路,IO读取时间反而增大了。其实说白了还是IO问题造成的,只不过原因不是硬件太差。当然,以上内容是博主的猜测,仅供参考

    所以,对于拥有一个好的SSD,好显卡,内存和CPU性能好的计算机而言,在训练数据量小,模型不大的情况下,建议cacheimages关掉,直接从硬盘读入GPU,将action=’store_true替换action=’store_false即可,关掉之后博主一次epoch从3分钟变成了20s,提升巨大,而且训练结果没有改变。

    总结

    大多数情况来说都是性能不足,存在瓶颈的情况,从而导致模型训练时间长,这也是深度学习中常有的事,但是在自己硬件条件好,数据量不大的情况下,模型训练仍然慢,就该考虑下是不是因为性能过剩,在数据存取上花了过多的时间造成的,这表现为内存和显存使用很大,但是CPU和GPU却不怎么占用经过博主一些测试,博主发现不管有没有用缓存,内存和显存使用都很大,这应该pytorch底层逻辑的关系,在用GPU跑模型的时候pytorch自动把数据缓存显存里,内存使用大小仅仅和batch_size有关。

    值得一提的是,虽然训练速度大大增加,但是依然没有解决GPU占用率低的问题,虽然GPU占用率很低,但是不会存在一段时间为0的情况,博主推测,可能是因为数据量太小,所需要检测目标数不多造成计算量太小的原因。博主之前在用VOC2012数据集进行训练时,GPU占用率就不低,但是仍然只占用了30%-60%,不知道使用这种方法有没有效,因为学业问题只能先跑自己数据集,如果有时间博主会更新相关结论。

    最后,博主计算机功底不算扎实,如果有问题,希望各位读者指正。

原文地址:https://blog.csdn.net/weixin_54048889/article/details/127934092

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_19085.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注