main注册了 topology resource,但 rank 侧不消费
K8s/KAI 先保证物理放置,NeMo-RL 只做 Ray bundle 的稳定 node/GPU 排序。
K8s / KAI / DRA
通过
topology-required-placement、ComputeDomain、RoCE、segmentSize 把 pod 尽量放进正确 clique。Ray worker startup
注册
nvlink_domain_<UUID> 和 topo_rank。Ray placement group
stopbundle 只请求
CPU/GPU,不请求 nvlink_domain_*。Rank ordering
按
(node_id, gpu_id) 稳定排序,只解决 Ray bundle 乱序问题。