我们兴奋地宣布,SGLang 已实现对 NVIDIA Nemotron 3 Super 的 Day-0 支持。
Nemotron 3 Super 是 Nemotron 3 系列中的领先开源模型,专为运行多个协作代理而设计。多代理系统涉及规划、推理和工具链的串联,会生成远超单轮对话的 token 数量,同时需要在每步保持强大推理能力。
Nemotron 3 Super 是一个 120B 参数的混合 MoE 模型,每前向传播仅激活 12B 参数,在编码、工具调用和指令遵循方面提供领先准确率,同时成本仅为几分之一,并支持 1M token 上下文,让代理在长流程中保持对话和计划状态。
如上图所示,Nemotron 3 Super 在 Artificial Analysis Openness 指数上领先。与其他开源模型相比,Nemotron 提供完全开放的权重、数据集和配方,开发者可轻松自定义、优化并部署到自家基础设施,确保最大隐私和安全。
本文将指导安装 SGLang 并部署 Nemotron 3 Super 进行推理。
关于 Nemotron 3 Super
- 架构:专家混合 (Mixture of Experts, MoE) 结合混合 Transformer-Mamba 架构
- 在其尺寸类别中最高吞吐效率,比前代 Nemotron Super 模型 (Llama Nemotron Super 1.5) 高达 5 倍
- Multi-Token Prediction (MTP):单前向传播同时预测多个未来 token,大幅加速长文本生成
- 支持 Thinking Budget,以最小推理 token 生成实现最佳准确率
- 准确率:在其尺寸类别中 Artificial Analysis Intelligence Index 领先
- 比前代 Nemotron Super 模型高达 2 倍准确率
- Latent MoE 允许以单专家推理成本调用 4 个专家
- 模型规模:总 120B 参数,活跃 12B 参数
- 上下文长度:高达 1M
- 模型 I/O:文本输入,文本输出
- 支持 GPU:B200、H100、H200、DGX Spark、RTX 6000
- 快速上手:
- 从 Hugging Face 下载模型权重 - BF16、FP8 和 NVFP4
- 使用 SGLang 运行推理
- 技术报告,用于构建自定义优化模型
安装与快速启动
欲简化 SGLang 设置,请参考 入门 Cookbook,或通过 NVIDIA Brev 启动。
运行以下命令安装依赖:
pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python'
然后启动模型服务。以下命令适用于 4xH200 配置,详见 Cookbook:
本文由 赢政天下编译整理,更多海外AI资讯,尽在 赢政天下。
# BF16
python3 -m sglang.launch_server \
--model-path nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
--host 0.0.0.0 \
--port 5000 \
--trust-remote-code \
--tp 4 \
--tool-call-parser qwen3_coder \
--reasoning-parser nemotron_3
服务器启动后,使用以下代码提示模型:
from openai import OpenAI
# 启动服务器时使用的模型名
SERVED_MODEL_NAME = "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16"
BASE_URL = f"http://localhost:5000/v1"
API_KEY = "EMPTY" # SGLang 服务器默认无需 API 密钥
client = OpenAI(base_url=BASE_URL, api_key=API_KEY)
resp = client.chat.completions.create(
model=SERVED_MODEL_NAME,
messages=[
{"role": "system", "content": "You are a helpful AI assistant."},
{"role": "user", "content": "Give me 3 bullet points about SGLang."}
],
temperature=0.6,
max_tokens=512,
)
print("Reasoning:", resp.choices[0].message.reasoning_content, "\nContent:", resp.choices[0].message.content)
Nemotron 3 Super 完美适配多代理与推理工作负载
如上图所示,该模型在 Artificial Analysis 基准上实现领先准确率与更高效率,是多代理系统的理想选择。
1M token 上下文专为长时程代理任务设计:代理可保留完整对话历史和计划状态,RAG 管道可一次性提供大型文档集,减少多步流程中的碎片化和目标漂移。
这些特性使 Super 成为单节点上编排多个代理的强大选择,从代码生成与调试,到研究摘要、警报分级和文档分析。
快速上手
Nemotron 3 Super 助您构建可扩展、高效的多代理 AI,同时保持高准确率。开放权重、数据集和配方提供完全透明度,可微调并部署到从工作站到云端的自家基础设施。
准备大规模运行多代理 AI 吗?
- 从 Hugging Face 下载 Nemotron 3 Super 模型权重 - BF16、FP8 和 NVFP4
- 使用 Cookbook 和 Brev 启动 运行 SGLang 推理
- 阅读 Nemotron 3 Super 技术报告
致谢
感谢所有贡献将 Nemotron 3 Super 引入 SGLang 的人员。
NVIDIA:Nirmal Kumar Juluru、Anusha Pant、Max Xu、Daniel Afrimi、Shahar Mor、Roi Koren、Ann Guan 等众多贡献者
SGLang 团队与社区:Baizhou Zhang、Jiajun Li、Ke Bao、Lingyan Hao、Mingyi Lu
© 2026 Winzheng.com 赢政天下 | 本文由赢政天下编译整理,转载请注明来源。原文版权归原作者所有。