下列架构图描述后训练 RL 从 trainer 脚本向服务化 runtime 演进时的系统边界与组件关系。
trainer 脚本与跨服务 Runtime data loop 的组件划分及数据流。
比较 colocated、disaggregated rollout service 与生产推理集群三种部署方式。
异步 RL 中队列语义、backpressure 与 sample staleness 的调度设计。
对比 RLVR、offline distillation 与 OPD 三条后训练数据流路线。