Blackwell Ultra - AI测评

SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃

SGLang团队与NVIDIA紧密合作，在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后，现扩展至Blackwell Ultra的GB300 NVL72，在InferenceXv2基准上较H200提升高达25倍。同时，GB200 NVL72性能在4个月内提升8倍。这些成果源于软硬件协同优化，显著降低延迟、提升吞吐量并减少每token成本。未来将进一步支持MTP、多模型调优及Vera Rubin系统，推动前沿推理模型部署成本降低。（128字）