在进行超多轮 agent rollouts 的过程中,由于router是按照请求进行路由的,导致prefix-cache 的命中率可能较低。
url = f"http://{args.sglang_router_ip}:{args.sglang_router_port}/generate"
由于 router 采用的是 逐请求(per-request)的负载均衡策略,同一个 rollout trajectory 中的多个请求(通常共享较长的前缀)可能会被路由到不同的推理引擎实例上。这会破坏 prefix-cache 的局部性,导致相同前缀被多次重复 prefill,从而在多轮长序列 rollouts 场景下显著降低整体吞吐。
因此想请教,是否可以支持一种 rollout 级别的请求黏性(request affinity)机制,例如:
- 在 rollout / trajectory 级别将请求绑定到某一个固定的推理引擎实例;
- 在多轮 rollouts 过程中保持 prefix-cache 的局部性与稳定命中;
- 负载均衡发生在“rollout → 推理引擎实例”的分配阶段,而不是在每一次 generate 请求上通过 router 进行动态路由。
十分感谢回复