1 月 28 日更新:NVIDIA 刚刚发布了 NVFP4 精度的 Nemotron 3 Nano 模型。该模型开箱即用支持 SGLang,并采用 Quantization-Aware Distillation (QAD) 新方法,在 NVFP4 下维持准确率,同时在 B200 上相比 FP8-H100 实现 4 倍吞吐量提升。您可以从这里下载 NVFP4 检查点,并使用NVIDIA Brev 启动器运行。
SGLang 当日即支持高效 NVIDIA Nemotron 3 Nano 模型
我们兴奋地宣布,SGLang 已于发布当日支持最新的高效率 NVIDIA Nemotron 3 Nano 模型!
Nemotron 3 Nano 来自新发布的开源 Nemotron 3 系列,是一款紧凑型 MoE 语言模型,提供行业领先的计算效率和准确率,帮助开发者构建专业化的代理式 AI 系统。
该模型完全开源,包括权重、数据集和训练配方,便于开发者自定义、优化并部署到自家基础设施,确保最大隐私与安全。下图显示,Nemotron 3 Nano 在 Artificial Analysis 的开源度 vs 智能指数图中位居最优象限。

TL;DR
- 架构:采用 Mixture of Experts (MoE) 与 Hybrid Transformer-Mamba 架构,支持 Thinking Budget 以最小推理令牌生成实现最佳准确率
- 准确率:在编码、科学推理、数学和指令跟随等领域领先
- 模型规模:30B 参数,激活参数 3.6B
- 上下文长度:1M
- 输入/输出:文本
- 支持 GPU:NVIDIA RTX Pro 6000、DGX Spark、H100、B200
- 快速上手:
- 从 Hugging Face 下载权重 - BF16、FP8、NVFP4
- 使用 SGLang 进行推理
- 技术报告,用于构建自定义优化模型
安装与快速启动
欲使用 SGLang 简化设置,请参考入门手册,或通过 NVIDIA Brev 启动器。
运行以下命令安装依赖:
uv pip install sglang==0.5.6.post3.dev1278+gad1b4e472 --extra-index-url https://sgl-project.github.io/whl/nightly/
然后启动服务:
# BF16
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-BF16 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder
# FP8
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-FP8 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder
# NVFP4
python3 -m sglang.launch_server --model-path nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-NVFP4 --trust-remote-code --reasoning-parser nano_v3 --tool-call-parser qwen3_coder
服务器启动后,使用以下代码提示模型:
from openai import OpenAI
# 启动服务器时使用的模型名称
SERVED_MODEL_NAME = "nvidia/NVIDIA-Nemotron-Nano-3-30B-A3B-BF16"
BASE_URL = f"http://localhost:30000/v1"
API_KEY = "EMPTY" # SGLang 服务器默认无需 API 密钥
client = OpenAI(base_url=BASE_URL, api_key=API_KEY)
resp = client.chat.completions.create(
model=SERVED_MODEL_NAME,
messages=[
{"role": "system", "content": "You are a helpful AI assistant."},
{"role": "user", "content": "Give me 3 bullet points about SGLang."}
],
temperature=0.6,
max_tokens=512,
)
print(resp.choices[0].message.reasoning_content, resp.choices[0].message.content)
Nemotron 3 Nano:构建 AI 代理的最高效率与领先准确率
Nemotron 3 Nano 基于混合 Mamba-Transformer 架构,将标准 FFN 层替换为 MoE 层,大部分注意力层改为 Mamba-2,仅用部分激活参数即可实现更高准确率。通过 MoE 降低计算需求,满足实时部署的低延迟要求。
其混合架构将令牌吞吐量提升高达 4 倍,实现更快推理与更高准确率。“Thinking Budget” 功能避免不必要计算,减少过度思考,确保更低且可预测的推理成本。

在 NVIDIA 精选高质量数据上训练,Nemotron 3 Nano 在 SWE Bench Verified、GPQA Diamond、AIME 2025、Arena Hard v2 和 IFBench 等基准上领先,适用于金融、网络安全、软件开发和零售等企业场景的 AI 代理构建。

快速上手
进一步阅读
- 分享您的想法,投票塑造 Nemotron 未来
- 订阅 NVIDIA 新闻,关注 NVIDIA Nemotron,并在 LinkedIn、X、YouTube 和 Discord Nemotron 频道 获取更新
致谢
感谢所有贡献者开发并集成 Nemotron 3 Nano 到 SGLang。
NVIDIA 团队:Roi Koren、Max Xu、Netanel Haber、Tomer Bar Natan、Daniel Afrimi、Nirmal Kumar Juluru、Ann Guan 等
SGLang 团队与社区:Baizhou Zhang、Jiajun Li、Ke Bao、Mingyi Lu、Richard Chen