SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

2026年02月04日 6 约8分钟 LMSYS

LMSYS SGLang Nemotron 3 Nano NVIDIA MoE模型 AI推理

1 月 28 日更新：NVIDIA 刚刚发布了 NVFP4 精度的 Nemotron 3 Nano 模型。该模型开箱即用支持 SGLang，并采用 Quantization-Aware Distillation (QAD) 新方法，在 NVFP4 下维持准确率，同时在 B200 上相比 FP8-H100 实现 4 倍吞吐量提升。您可以从这里下载 NVFP4 检查点，并使用NVIDIA Brev 启动器运行。

SGLang 当日即支持高效 NVIDIA Nemotron 3 Nano 模型

我们兴奋地宣布，SGLang 已于发布当日支持最新的高效率 NVIDIA Nemotron 3 Nano 模型！

Nemotron 3 Nano 来自新发布的开源 Nemotron 3 系列，是一款紧凑型 MoE 语言模型，提供行业领先的计算效率和准确率，帮助开发者构建专业化的代理式 AI 系统。

该模型完全开源，包括权重、数据集和训练配方，便于开发者自定义、优化并部署到自家基础设施，确保最大隐私与安全。下图显示，Nemotron 3 Nano 在 Artificial Analysis 的开源度 vs 智能指数图中位居最优象限。

NVIDIA Nemotron 3 Nano 在 Artificial Analysis 开源度与智能指数图中位居最佳象限

NVIDIA Nemotron 3 Nano 为开源 AI 树立新标准

TL;DR

架构：采用 Mixture of Experts (MoE) 与 Hybrid Transformer-Mamba 架构，支持 Thinking Budget 以最小推理令牌生成实现最佳准确率
准确率：在编码、科学推理、数学和指令跟随等领域领先
模型规模：30B 参数，激活参数 3.6B
上下文长度：1M
输入/输出：文本
支持 GPU：NVIDIA RTX Pro 6000、DGX Spark、H100、B200
快速上手：
- 从 Hugging Face 下载权重 - BF16、FP8、NVFP4
- 使用 SGLang 进行推理
- 技术报告，用于构建自定义优化模型

安装与快速启动

欲使用 SGLang 简化设置，请参考入门手册，或通过 NVIDIA Brev 启动器。

运行以下命令安装依赖：

uv pip install sglang==0.5.6.post3.dev1278+gad1b4e472 --extra-index-url https://sgl-project.github.io/whl/nightly/

然后启动服务：

# BF16
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-BF16 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder

# FP8
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-FP8 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder

# NVFP4
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-NVFP4 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder

服务器启动后，使用以下代码提示模型：

from openai import OpenAI

# 启动服务器时使用的模型名称
SERVED_MODEL_NAME = "nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-BF16"

BASE_URL = f"http://localhost:30000/v1"
API_KEY = "EMPTY"  # SGLang 服务器默认无需 API 密钥

client = OpenAI(base_url=BASE_URL, api_key=API_KEY)

resp = client.chat.completions.create(
    model=SERVED_MODEL_NAME,
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Give me 3 bullet points about SGLang."}
    ],
    temperature=0.6,
    max_tokens=512,
)
print(resp.choices[0].message.reasoning_content, resp.choices[0].message.content)

Nemotron 3 Nano：构建 AI 代理的最高效率与领先准确率

Nemotron 3 Nano 基于混合 Mamba-Transformer 架构，将标准 FFN 层替换为 MoE 层，大部分注意力层改为 Mamba-2，仅用部分激活参数即可实现更高准确率。通过 MoE 降低计算需求，满足实时部署的低延迟要求。

其混合架构将令牌吞吐量提升高达 4 倍，实现更快推理与更高准确率。“Thinking Budget” 功能避免不必要计算，减少过度思考，确保更低且可预测的推理成本。

Nemotron 3 Nano 在开源推理模型中吞吐量更高、准确率领先

在 NVIDIA 精选高质量数据上训练，Nemotron 3 Nano 在 SWE Bench Verified、GPQA Diamond、AIME 2025、Arena Hard v2 和 IFBench 等基准上领先，适用于金融、网络安全、软件开发和零售等企业场景的 AI 代理构建。

Nemotron 3 Nano 在流行学术基准上领先开源小型推理模型

快速上手

从 Hugging Face 下载权重 - BF16、FP8、NVFP4
使用SGLang 手册或 NVIDIA Brev 启动器进行推理

进一步阅读

分享您的想法，投票塑造 Nemotron 未来
订阅 NVIDIA 新闻，关注 NVIDIA Nemotron，并在 LinkedIn、X、YouTube 和 Discord Nemotron 频道获取更新

致谢

感谢所有贡献者开发并集成 Nemotron 3 Nano 到 SGLang。

NVIDIA 团队：Roi Koren、Max Xu、Netanel Haber、Tomer Bar Natan、Daniel Afrimi、Nirmal Kumar Juluru、Ann Guan 等

SGLang 团队与社区：Baizhou Zhang、Jiajun Li、Ke Bao、Mingyi Lu、Richard Chen