rl infra

尚未系统整理,先记一个粗判断:整体架构在走向成熟,部署形态普遍解耦——不止训推分离,还出现了 Agent 应用与训推平台、训推 API(如 Tinker API)、训推框架的分层

在这种形态下,常见会并行做两件事:一是用 OpenTelemetry(以 spans 为主) 做标准化 trace,沉淀模型 / Agent 的行为轨迹,再回流进 RL 训练闭环;二是通过 LLM Proxy 统一 Agent 侧使用的模型 API,在训练态把请求 转发到当前正在更新的模型,由它承担 RL 里的推理侧,避免应用侧调用与训练态模型服务两条路径对不齐。

关于轨迹记录与训练回流,直觉上和早年搜索推荐那一套并无本质不同:线上记录与埋点 → 数据回流 → 离线实验与训练