← 返回架构图 ← 返回文章

队列、Backpressure 与 Staleness

异步 RL 主循环 Rollout Queue policy_version queue_delay Reward Queue retry_count timeout Train Queue staleness policy_version Policy Publish Queue queue_delay policy_version → Rollout Queue loop:新 policy 发布 → rollout 消费 Backpressure Controller reward / train 慢时 → 限速 rollout 下游 queue depth 超阈值 → 上游 backpressure 防止 trajectory 堆积 Staleness Gate sample 超过 stale bound → 丢弃或降权 每条 sample 标记 policy_version、queue_delay update 侧决定 off-policy 接受程度 throttle filter / downweight 队列关键字段: policy_version · queue_delay · staleness · retry_count · timeout 调度层必须把这些作为一等语义,而不只是更大的 buffer

异步 RL 调度需显式定义队列样本与当前 policy 的对应关系;backpressure、timeout、retry 和 staleness 应作为调度层的一等语义。