目录

docker容器内运行pytorch多gpu报错-RuntimeError-NCCL-Error-2-unhandled-system-error

目录

docker容器内运行pytorch多gpu报错 RuntimeError: NCCL Error 2: unhandled system error

https://i-blog.csdnimg.cn/direct/6aad4a7212bd4fd4bb1f54b227deaee8.jpeg

尝试了多种方法不行比如

export NCCL_IB_DISABLE=1 
export NCCL_P2P_DISABLE=1

最终解决该问题的方法是

启动容器的时候增加交换内存 --shm-size=15g在这里插入代码片