SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能
SGLang 和 NVIDIA 团队紧密合作,针对 NVIDIA Blackwell 架构优化推理性能,利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性,在 GB200 NVL72 系统上实现 DeepSeek R1 模型的惊人吞吐量:每 GPU 预填充 26k 输入 token/秒,解码 13k 输出 token/秒。在 SemiAnalysis InferenceMAX v1 基准中,Blackwell GPU(GB200/B200)搭配 SGLang 比 Hopper GPU(H100/H200)性能提升高达 4 倍,覆盖整个延迟-吞吐量 Pareto 前沿。SGLang 通过 Prefill-Decode 分离、大规模专家并行等系统级优化,充分发挥 Blackwell 硬件潜力。未来将进一步优化 DeepSeek v3.2 等模型,并加强与 SemiAnalysis 合作。(128 字)