异步 RL 调度需显式定义队列样本与当前 policy 的对应关系;backpressure、timeout、retry 和 staleness 应作为调度层的一等语义。
下一张:OPD Teacher / Distillation Service →