系统边界由 trainer 向 runtime 扩展:主链上的 Rollout Service / Trainer 是编排角色;底层 Model Runtime 提供 Inference Engine(generation forward)与 Training Engine(policy update 的 forward / backward,如 Megatron / FSDP)。训练链路稳定性由服务间 data loop 决定,Environment Service 与 Teacher / Distillation Service 会成为高成本、需调度和观测的 runtime 服务。图中 Env State 指 agent 执行任务时可读写的环境状态(文件系统、沙箱、浏览器页面等),不是 Ray / K8s 等 infra 层面的 workspace。