SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型
SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型,该模型采用混合 Transformer-Mamba 架构与 MoE 设计,总参数 30B、激活参数仅 3.6B,支持 1M 上下文长度。在 NVFP4 精度下,通过 Quantization-Aware Distillation (QAD) 技术保持高准确率,同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先,适用于构建企业级 AI 代理。SGLang 提供即插即用支持,开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。(128 字)