Skip to content

请求支持 rollout 粒度的 sglang 请求路由提高多轮 rollout 的吞吐量 #1469

@zchuz

Description

@zchuz

在进行超多轮 agent rollouts 的过程中,由于router是按照请求进行路由的,导致prefix-cache 的命中率可能较低。

url = f"http://{args.sglang_router_ip}:{args.sglang_router_port}/generate"

由于 router 采用的是 逐请求(per-request)的负载均衡策略,同一个 rollout trajectory 中的多个请求(通常共享较长的前缀)可能会被路由到不同的推理引擎实例上。这会破坏 prefix-cache 的局部性,导致相同前缀被多次重复 prefill,从而在多轮长序列 rollouts 场景下显著降低整体吞吐。

因此想请教,是否可以支持一种 rollout 级别的请求黏性(request affinity)机制,例如:

  • 在 rollout / trajectory 级别将请求绑定到某一个固定的推理引擎实例;
  • 在多轮 rollouts 过程中保持 prefix-cache 的局部性与稳定命中;
  • 负载均衡发生在“rollout → 推理引擎实例”的分配阶段,而不是在每一次 generate 请求上通过 router 进行动态路由。

十分感谢回复

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions