nccl tests 发表于 2024-02-01 更新于 2026-03-29 本文字数: 192 阅读时长 ≈ 1 分钟 多节点测试依赖 mpi。编译时打开 MPI 开头。 测试时配置多节点 ssh 免密。另外如果是 RoCE 网络,注意正确配置 NCCL 无损队列匹配 RoCE 无损队列。 逐渐调大 size 衡量网络带宽情况。 https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/env.html#nccl-algo NCCL_ALGO=ring 衡量网络带宽时较为稳定。