docker容器内运行pytorch多gpu报错-RuntimeError-NCCL-Error-2-unhandled-system-error
目录
docker容器内运行pytorch多gpu报错 RuntimeError: NCCL Error 2: unhandled system error
尝试了多种方法不行比如
export NCCL_IB_DISABLE=1
export NCCL_P2P_DISABLE=1
最终解决该问题的方法是
启动容器的时候增加交换内存 --shm-size=15g在这里插入代码片