Bootstrap

pytorch训练的时候 shm共享内存不足,导致训练停止

1.查看shm情况

df -h /dev/shm

在这里插入图片描述
内存已经满了,因为之前训练多次训练意外停止到shm中的缓存不能及时被清理
2、手动清理shm
在这里插入图片描述
依然没被释放
在这里插入图片描述
3、查看关联的进程,一个一个kill

lsof |grep deleted

kill -9 46619 44618 44617 。。。。。

在这里插入图片描述

4、搞定
在这里插入图片描述

;