NCCL clique 可视化

返回文章

训练框架负责解释并行策略

框架定义 TP / DP / PP / EP 的逻辑 group pattern,并用 rank layout 把逻辑坐标映射到 global rank。

group pattern
NCCL clique conceptual graph 训练框架 并行策略与 rank layout process group / new_group 负责把逻辑坐标展开成 rank group Launcher / Rendezvous RANK / WORLD_SIZE LOCAL_RANK / local world 负责给训练进程分配 rank id 训练调度系统 node / GPU / NIC 拓扑 NUMA / fabric domain 负责资源选择和物理 placement rank id group + rank -> GPU placement 框架给出成员关系;调度和 launcher 给出物理落点 NCCL: communicator + topology graph + transport 观测 NCCL log graph dump 注意:rank id 来自 launcher/rendezvous;rank group 来自框架 layout;物理路径来自 placement 和 NCCL 建图。

示例:2 节点 x 4 GPU

node0

node1

具体 rank id group

TP groups
DP groups

当前层回答的问题

框架先给出并行策略和 group pattern,例如 TP size 为 4,DP size 为 2,以及 TP 倾向同机或同一高带宽 fabric domain。