← 返回文章

RL 后训练系统架构图

下列架构图描述后训练 RL 从 trainer 脚本向服务化 runtime 演进时的系统边界与组件关系。

从 Trainer 到 Runtime Loop

trainer 脚本与跨服务 Runtime data loop 的组件划分及数据流。

Rollout 后端部署形态

比较 colocated、disaggregated rollout service 与生产推理集群三种部署方式。

队列、Backpressure 与 Staleness

异步 RL 中队列语义、backpressure 与 sample staleness 的调度设计。

OPD Teacher / Distillation Service

对比 RLVR、offline distillation 与 OPD 三条后训练数据流路线。