← 返回架构图 ← 返回文章

Rollout 后端部署形态

1. Colocated Rollout：rollout engine 与 trainer 同 job 部署（也称 embedded / colocated；后端可为 vLLM / SGLang 等）。权重在 job 内本地同步，语义最贴近 on-policy，但 rollout 长尾会拖住整个 training step。

2. Disaggregated Rollout Service：rollout 仍是为本训练任务单独部署的推理服务（独立 GPU fleet / Ray actor / K8s deployment），只是与 trainer 进程解耦。实线：trainer 经 queue 下发 prompt；虚线返回 trace + logprob；另一条虚线：trainer 将更新后的 policy 权重同步到 rollout（非反向）。典型于 verl async rollout、OpenRLHF agent server 等——解耦扩缩与故障，但需处理 staleness 与 queue backlog。

3. Production Inference Rollout：rollout 不再单独为 RL 起一套专用集群，而是在训练过程中调用生产态推理基础设施（Inference API / Scheduler 后面的 serving fleet）。更准确地说，这不是把 RL 请求当作普通线上请求混入用户路径，而是让训练系统以低优先级 / 可抢占 workload 消纳线上低谷或弹性余量；高峰时 capacity 可被线上 SLA 收回。与 2 的数据流类似（RL prompt 下发 → trace + logprob 回传 → policy publish），差别在于后端是成熟 serving 调度平台，核心问题变成优先级隔离、policy version pinning、logprob / trace 导出、preemption 后的样本完整性。以 Cursor + Fireworks 为例。

下一张：队列、Backpressure 与 Staleness →