SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃
SGLang团队与NVIDIA紧密合作,在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后,现扩展至Blackwell Ultra的GB300 NVL72,在InferenceXv2基准上较H200提升高达25倍。同时,GB200 NVL72性能在4个月内提升8倍。这些成果源于软硬件协同优化,显著降低延迟、提升吞吐量并减少每token成本。未来将进一步支持MTP、多模型调优及Vera Rubin系统,推动前沿推理模型部署成本降低。(128字)