请求支持 rollout 粒度的 sglang 请求路由提高多轮 rollout 的吞吐量

在进行超多轮 agent rollouts 的过程中，由于router是按照请求进行路由的，导致prefix-cache 的命中率可能较低。

```python
url = f"http://{args.sglang_router_ip}:{args.sglang_router_port}/generate"
```

由于 router 采用的是 逐请求（per-request）的负载均衡策略，同一个 rollout trajectory 中的多个请求（通常共享较长的前缀）可能会被路由到不同的推理引擎实例上。这会破坏 prefix-cache 的局部性，导致相同前缀被多次重复 prefill，从而在多轮长序列 rollouts 场景下显著降低整体吞吐。

因此想请教，是否可以支持一种 rollout 级别的请求黏性（request affinity）机制，例如：
- 在 rollout / trajectory 级别将请求绑定到某一个固定的推理引擎实例；
- 在多轮 rollouts 过程中保持 prefix-cache 的局部性与稳定命中；
- 负载均衡发生在“rollout → 推理引擎实例”的分配阶段，而不是在每一次 generate 请求上通过 router 进行动态路由。

十分感谢回复

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请求支持 rollout 粒度的 sglang 请求路由提高多轮 rollout 的吞吐量 #1469

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

请求支持 rollout 粒度的 sglang 请求路由提高多轮 rollout 的吞吐量 #1469

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions