SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型,该模型采用混合 Transformer-Mamba 架构与 MoE 设计,总参数 30B、激活参数仅 3.6B,支持 1M 上下文长度。在 NVFP4 精度下,通过 Quantization-Aware Distillation (QAD) 技术保持高准确率,同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先,适用于构建企业级 AI 代理。SGLang 提供即插即用支持,开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。(128 字)

1 月 28 日更新:NVIDIA 刚刚发布了 NVFP4 精度的 Nemotron 3 Nano 模型。该模型开箱即用支持 SGLang,并采用 Quantization-Aware Distillation (QAD) 新方法,在 NVFP4 下维持准确率,同时在 B200 上相比 FP8-H100 实现 4 倍吞吐量提升。您可以从这里下载 NVFP4 检查点,并使用NVIDIA Brev 启动器运行。

SGLang 当日即支持高效 NVIDIA Nemotron 3 Nano 模型

我们兴奋地宣布,SGLang 已于发布当日支持最新的高效率 NVIDIA Nemotron 3 Nano 模型!

Nemotron 3 Nano 来自新发布的开源 Nemotron 3 系列,是一款紧凑型 MoE 语言模型,提供行业领先的计算效率和准确率,帮助开发者构建专业化的代理式 AI 系统。

该模型完全开源,包括权重、数据集和训练配方,便于开发者自定义、优化并部署到自家基础设施,确保最大隐私与安全。下图显示,Nemotron 3 Nano 在 Artificial Analysis 的开源度 vs 智能指数图中位居最优象限。

NVIDIA Nemotron 3 Nano 在 Artificial Analysis 开源度与智能指数图中位居最佳象限
NVIDIA Nemotron 3 Nano 为开源 AI 树立新标准

TL;DR

  • 架构:采用 Mixture of Experts (MoE) 与 Hybrid Transformer-Mamba 架构,支持 Thinking Budget 以最小推理令牌生成实现最佳准确率
  • 准确率:在编码、科学推理、数学和指令跟随等领域领先
  • 模型规模:30B 参数,激活参数 3.6B
  • 上下文长度:1M
  • 输入/输出:文本
  • 支持 GPU:NVIDIA RTX Pro 6000、DGX Spark、H100、B200
  • 快速上手

安装与快速启动

欲使用 SGLang 简化设置,请参考入门手册,或通过 NVIDIA Brev 启动器

运行以下命令安装依赖:

uv pip install sglang==0.5.6.post3.dev1278+gad1b4e472 --extra-index-url https://sgl-project.github.io/whl/nightly/

然后启动服务:

# BF16
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-BF16 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder

# FP8
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-FP8 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder

# NVFP4
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-NVFP4 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder

服务器启动后,使用以下代码提示模型:

from openai import OpenAI

# 启动服务器时使用的模型名称
SERVED_MODEL_NAME = "nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-BF16"

BASE_URL = f"http://localhost:30000/v1"
API_KEY = "EMPTY"  # SGLang 服务器默认无需 API 密钥

client = OpenAI(base_url=BASE_URL, api_key=API_KEY)

resp = client.chat.completions.create(
    model=SERVED_MODEL_NAME,
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Give me 3 bullet points about SGLang."}
    ],
    temperature=0.6,
    max_tokens=512,
)
print(resp.choices[0].message.reasoning_content, resp.choices[0].message.content)

Nemotron 3 Nano:构建 AI 代理的最高效率与领先准确率

Nemotron 3 Nano 基于混合 Mamba-Transformer 架构,将标准 FFN 层替换为 MoE 层,大部分注意力层改为 Mamba-2,仅用部分激活参数即可实现更高准确率。通过 MoE 降低计算需求,满足实时部署的低延迟要求。

其混合架构将令牌吞吐量提升高达 4 倍,实现更快推理与更高准确率。“Thinking Budget” 功能避免不必要计算,减少过度思考,确保更低且可预测的推理成本。

Nemotron 3 Nano 在开源推理模型中提供更高吞吐量与领先准确率
Nemotron 3 Nano 在开源推理模型中吞吐量更高、准确率领先

在 NVIDIA 精选高质量数据上训练,Nemotron 3 Nano 在 SWE Bench Verified、GPQA Diamond、AIME 2025、Arena Hard v2 和 IFBench 等基准上领先,适用于金融、网络安全、软件开发和零售等企业场景的 AI 代理构建。

Nemotron 3 Nano 在开源小型推理模型的各种学术基准测试中领先
Nemotron 3 Nano 在流行学术基准上领先开源小型推理模型

快速上手

进一步阅读

致谢

感谢所有贡献者开发并集成 Nemotron 3 Nano 到 SGLang。

NVIDIA 团队:Roi Koren、Max Xu、Netanel Haber、Tomer Bar Natan、Daniel Afrimi、Nirmal Kumar Juluru、Ann Guan 等

SGLang 团队与社区:Baizhou Zhang、Jiajun Li、Ke Bao、Mingyi Lu、Richard Chen