← 返回架构图 ← 返回文章

从 Trainer 到 Runtime Loop

系统边界由 trainer 向 runtime 扩展：主链上的 Rollout Service / Trainer 是编排角色；底层 Model Runtime 提供 Inference Engine（generation forward）与 Training Engine（policy update 的 forward / backward，如 Megatron / FSDP）。训练链路稳定性由服务间 data loop 决定，Environment Service 与 Teacher / Distillation Service 会成为高成本、需调度和观测的 runtime 服务。图中 Env State 指 agent 执行任务时可读写的环境状态（文件系统、沙箱、浏览器页面等），不是 Ray / K8s 等 infra 层面的 workspace。

下一张：Rollout 后端部署形态 →