SGLang推理加速:原生集成NVIDIA Model Optimizer,实现无缝量化部署
SGLang最新功能原生支持NVIDIA Model Optimizer量化!这一集成简化了从全精度模型到高性能量化端点的整个优化与部署流程,无需多步工具切换。通过SGLang中的ModelOpt API,只需三步即可完成量化(支持NVFP4、MXFP4、FP8等)、导出与部署。性能表现突出:在NVIDIA B200上,Model Optimizer与SGLang优化可实现比原生FP8高达2倍的单GPU吞吐量。结合Blackwell架构,从DGX Spark到GB300 NVL72均可显著提升延迟降低与内存节省。提供完整示例代码,助力开发者快速上手。(128字)