本文介绍: 三个人,一个在举重,一个人在跑步,一个人在走路。他们都在运动,都是忙碌的,也就是GPU-Util占用高。但是很显然举重的,对外做功高,跑步的做功低,走路的最差,也就是GPU的耗电情况。如下所示,其表格中,有这么多参数,且参数名与值的其位置是一一对应的。我用不同颜色进行标识,同一种颜色的方框和箭头,标识出参数名和其值的位置关系。Pwr是指GPU运行时耗电情况,如图中GPU满载是300W,目前是86W与GPU2的空载情况功率相等。如下图所示,GPU功率很低,Util占用率高。,也就是人员到位了,在等活干,
文章目录
问题
如下图所示,GPU功率很低,Util占用率高。这个训练时不正常的!
现象解释
Pwr是指GPU运行时耗电情况,如图中GPU满载是300W,目前是86W与GPU2的空载情况功率相等。说明GPU没有在真正运行。
GPU-Util高说明它的核心被占用了,占用率为100%。
打个比方,把GPU看做是人。三个人,一个在举重,一个人在跑步,一个人在走路。他们都在运动,都是忙碌的,也就是GPU-Util占用高。但是很显然举重的,对外做功高,跑步的做功低,走路的最差,也就是GPU的耗电情况。详细此述
结论:像是这种情况,说明GPU被占用了,但是没有实际工作,也就是人员到位了,在等活干,很有可能是进程等待问题,或者进程锁死了。
解决方案
- 定位问题,方法很多,比如:打印输出,看程序卡死在哪步,即可定位。
- 网上找解决方案。
- 如果是在运行多卡训练,容易卡死的地方有:
磨刀不误砍柴工–nvidia-smi参数解读
如下所示,其表格中,有这么多参数,且参数名与值的其位置是一一对应的。我用不同颜色进行标识,同一种颜色的方框和箭头,标识出参数名和其值的位置关系。
参数名 | 含义 | 例子 |
---|---|---|
GPU | 显卡的本地设备号,对应值为0,1,2,3…几块显卡就有几个数 | |
Name | 显卡型号名 | |
Persistence-M | Persistence-M是一种显卡运行模式,值为on或off,代表是否开或关 | |
Fan | 与散热风扇转数有关,用百分数显示,越高说明转数越高 | |
temp | GPU核心温度,过热就有危险了,显卡要烧坏了,单位是摄氏度,如45C就是45度 | |
Perf | ||
Pwr:Usage/Cap | GPU目前耗电多少瓦,Cap是额定功率,Usage表示当前功率,86W/300W表示满载300W,目前86W | |
Bus-ID | 显卡总线的ID,总线是用来传输数据和指令的,是显卡与CPU,内存等硬件传输数据的线路 | |
Disp.A | 不知道 | |
Memory-Usage | 显存占用情况,大家都知道,不说了 | |
GPU-Util | GPU中计算核心目前的占用率 |
原文地址:https://blog.csdn.net/mantoureganmian/article/details/135566978
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_57020.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。