SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能

SGLang 和 NVIDIA 团队紧密合作,针对 NVIDIA Blackwell 架构优化推理性能,利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性,在 GB200 NVL72 系统上实现 DeepSeek R1 模型的惊人吞吐量:每 GPU 预填充 26k 输入 token/秒,解码 13k 输出 token/秒。在 SemiAnalysis InferenceMAX v1 基准中,Blackwell GPU(GB200/B200)搭配 SGLang 比 Hopper GPU(H100/H200)性能提升高达 4 倍,覆盖整个延迟-吞吐量 Pareto 前沿。SGLang 通过 Prefill-Decode 分离、大规模专家并行等系统级优化,充分发挥 Blackwell 硬件潜力。未来将进一步优化 DeepSeek v3.2 等模型,并加强与 SemiAnalysis 合作。(128 字)

SGLang 与 NVIDIA 的深度合作

SGLang 和 NVIDIA 团队长期合作,不断推出推理优化和系统级改进,确保 SGLang 框架卓越性能。最近,合作焦点转向NVIDIA Blackwell 架构,NVIDIA 最新的数据中心 GPU。通过利用 Blackwell 的关键特性,如FP8 attentionNVFP4 MoEPD-Disaggregated Expert Parallelism 架构,SGLang 在高吞吐量下取得突破性性能。在 NVIDIA GB200 NVL72 系统上,SGLang 为 DeepSeek R1 模型提供惊人的每 GPU 预填充 26k 输入 token/秒、解码 13k 输出 token/秒,标志着大规模下成本和能效的新高度。

这一联合成果进一步体现在 SGLang 在新发布的 SemiAnalysis InferenceMAX v1 基准中的表现。InferenceMAX 是一个持续基准框架,针对不同输入/输出配置运行推理测试,并每日更新结果。

在 Blackwell GPU(GB200/B200)上运行 DeepSeek R1 模型时,SGLang 相比上一代 Hopper GPU(H100/H200)性能提升高达4 倍,这一优势在整个 Pareto 前沿(评估延迟与吞吐量的关键权衡)上均有体现。

SemiAnalysis InferenceMAX 基准

LLM 推理性能由两大支柱驱动:硬件软件。硬件创新带来阶跃式改进,而软件则每日演进,提供持续性能提升。SemiAnalysis InferenceMAX™ 基准旨在捕捉这一动态,每晚在数百种芯片上运行基准套件,实时跟踪热门开源推理框架和模型的真实性能。公众可访问实时仪表板

InferenceMAX™ 的核心目标是覆盖不同 GPU、推理引擎和工作负载的全谱。为确保服务器配置贴近真实部署,基准组织者要求硬件厂商提交符合其最佳实践的配置。

SGLang 被选为 NVIDIA 和 AMD 硬件上运行 DeepSeek 模型的默认推理引擎,这证明了其针对这些前沿模型的高度专业化优化。

下图展示 1k 输入 token 和 8k 输出 token 配置的结果,突出 Blackwell 上的性能。

SGLang 在不同硬件平台上的性能(来源:https://inferencemax.ai/)

图 1:SGLang 在不同硬件平台上的性能。(来源:https://inferencemax.ai/)

针对大规模 MoE 模型的 SGLang 优化

这些性能提升源于针对大规模 Mixture-of-Experts (MoE) 模型的深度系统级优化。

Prefill-Decode 分离与大规模专家并行

LLM 推理分为两个阶段:计算密集的Prefill(处理输入提示)和内存密集的Decode(生成输出 token)。统一引擎处理两者会造成低效,如预填充批次中断解码流。

SGLang 通过Prefill-Decode (PD) Disaggregation解决这一问题,将两阶段分离为独立引擎,实现针对性调度和优化。这一架构对高效实现Large-Scale Expert Parallelism (EP)至关重要,尤其在使用 DeepEP 等通信库时。DeepEP 为预填充(高吞吐)和解码(低延迟)采用不同分发模式,统一引擎无法兼容。分离后,SGLang 可为每个阶段选用最佳 DeepEP 模式,提升整体效率。

Blackwell 专用内核优化

与 NVIDIA 的合作让我们开发并集成充分利用 Blackwell 新能力的优化内核:

  • FP8 Attention:KV 缓存使用 FP8 精度,解码时内存访问压力减半,并启用更快 Tensor Core 指令,提升注意力内核速度,支持更大批次和更长序列。
  • NVFP4 GEMM:MoE 专家和其他 GEMM 使用新 NVFP4 精度,降低内存带宽,利用强大 FP4 Tensor Core,并将 token 分发通信流量减半,释放权重内存空间以容纳更大 KV 缓存。
  • 计算-通信重叠:Blackwell 系统通信带宽大幅提升,支持更细粒度重叠,高效隐藏通信延迟。
  • 优化内核:集成一系列新内核,包括NVIDIA Blackwell DeepGEMMFlashInfer 的 NVFP4 GEMM 和 FP8 attention 内核、Flash Attention CuTeCUTLASS MLA,均重写以利用 TMA 和 cluster launch control 等新特性。

了解更多,请参阅详细技术博客:

SGLang 使用 Prefill-Decode 分离和专家并行的性能(来源:https://lmsys.org/blog/2025-09-25-gb200-part-2/)

图 2:SGLang 使用 Prefill-Decode 分离和专家并行的性能。(来源:https://lmsys.org/blog/2025-09-25-gb200-part-2/)

未来合作

未来,我们将加强与 NVIDIA 在运行时和内核层面的合作,继续优化DeepSeek v3.2、GPT-OSS 和 QWen 模型系列在最新 NVIDIA GPU 上的性能,从紧凑的DGX Spark到 GB200 和 GB300 等全机架超级计算机。

我们还将与 SemiAnalysis 团队更紧密合作,使 InferenceMAX 基准更系统、可复现和可靠,并协助验证我们的全机架解决方案。

致谢

感谢社区中所有助力此项目的人员。

NVIDIA 团队:Trevor Morris, Kaixi Hou, Elfie Guo, Nicolas Castet, Faraz Khoubsirat, Ishan Dhanan, Shu Wang, Pavani Majety, Zihao Ye, Yingyi Huang, Alex Zhurkevich, Kushan Ahmadian, Pen Li, Juan Yu, Kedar Potar, Grace Ho, Lingjie Wu, Yiheng Zhang, Kyle Liang 等

SGLang 团队:Jingyi Chen, Baizhou Zhang, Jiexin Liang, Qiaolin Yu, Yineng Zhang, Ke Bao, Liangsheng Yin, Jianan Ji, Ying Sheng

SemiAnalysis 团队:Dylan Patel, Kimbo Chen, Cam 等