SGLang 日零支持 NVIDIA Nemotron 3 Super,赋能高效多代理系统

SGLang 宣布 Day-0 支持 NVIDIA Nemotron 3 Super,这是 Nemotron 3 系列领先的开源模型,专为多代理协作设计。Nemotron 3 Super 采用 120B 参数混合 MoE 架构,每前向传播仅激活 12B 参数,在编码、工具调用和指令遵循上表现出色,支持 1M 上下文长度。Artificial Analysis 图表显示其在智能与开放性上领先同类模型。文章详解安装 SGLang 并部署模型,支持多代理推理工作负载,如规划、推理和工具链。提供 Hugging Face 下载链接、SGLang Cookbook 和技术报告,助力开发者构建可扩展、高效的多代理 AI 系统。

我们兴奋地宣布,SGLang 已实现对 NVIDIA Nemotron 3 Super 的 Day-0 支持。

Nemotron 3 Super 是 Nemotron 3 系列中的领先开源模型,专为运行多个协作代理而设计。多代理系统涉及规划、推理和工具链的串联,会生成远超单轮对话的 token 数量,同时需要在每步保持强大推理能力。

Nemotron 3 Super 是一个 120B 参数的混合 MoE 模型,每前向传播仅激活 12B 参数,在编码、工具调用和指令遵循方面提供领先准确率,同时成本仅为几分之一,并支持 1M token 上下文,让代理在长流程中保持对话和计划状态。

figure1
Artificial Analysis 图表显示 Nemotron 3 Super 在智能与开放性对比中领先同类热门开源模型

如上图所示,Nemotron 3 Super 在 Artificial Analysis Openness 指数上领先。与其他开源模型相比,Nemotron 提供完全开放的权重、数据集和配方,开发者可轻松自定义、优化并部署到自家基础设施,确保最大隐私和安全。

本文将指导安装 SGLang 并部署 Nemotron 3 Super 进行推理。

关于 Nemotron 3 Super

  • 架构:专家混合 (Mixture of Experts, MoE) 结合混合 Transformer-Mamba 架构
    • 在其尺寸类别中最高吞吐效率,比前代 Nemotron Super 模型 (Llama Nemotron Super 1.5) 高达 5 倍
    • Multi-Token Prediction (MTP):单前向传播同时预测多个未来 token,大幅加速长文本生成
    • 支持 Thinking Budget,以最小推理 token 生成实现最佳准确率
  • 准确率:在其尺寸类别中 Artificial Analysis Intelligence Index 领先
    • 比前代 Nemotron Super 模型高达 2 倍准确率
    • Latent MoE 允许以单专家推理成本调用 4 个专家
  • 模型规模:总 120B 参数,活跃 12B 参数
  • 上下文长度:高达 1M
  • 模型 I/O:文本输入,文本输出
  • 支持 GPU:B200、H100、H200、DGX Spark、RTX 6000
  • 快速上手

安装与快速启动

欲简化 SGLang 设置,请参考 入门 Cookbook,或通过 NVIDIA Brev 启动

运行以下命令安装依赖:

pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python'

然后启动模型服务。以下命令适用于 4xH200 配置,详见 Cookbook:

本文由 赢政天下编译整理,更多海外AI资讯,尽在 赢政天下

# BF16
python3 -m sglang.launch_server \
  --model-path nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
  --host 0.0.0.0 \
  --port 5000 \
  --trust-remote-code \
  --tp 4 \
  --tool-call-parser qwen3_coder \
  --reasoning-parser nemotron_3

服务器启动后,使用以下代码提示模型:

from openai import OpenAI

# 启动服务器时使用的模型名
SERVED_MODEL_NAME = "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16"

BASE_URL = f"http://localhost:5000/v1"
API_KEY = "EMPTY"  # SGLang 服务器默认无需 API 密钥

client = OpenAI(base_url=BASE_URL, api_key=API_KEY)

resp = client.chat.completions.create(
    model=SERVED_MODEL_NAME,
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Give me 3 bullet points about SGLang."}
    ],
    temperature=0.6,
    max_tokens=512,
)
print("Reasoning:", resp.choices[0].message.reasoning_content, "\nContent:", resp.choices[0].message.content)

Nemotron 3 Super 完美适配多代理与推理工作负载

figure2
Artificial Analysis 图表显示 Nemotron 3 Super 在智能与效率对比中领先同类热门开源模型

如上图所示,该模型在 Artificial Analysis 基准上实现领先准确率与更高效率,是多代理系统的理想选择。

1M token 上下文专为长时程代理任务设计:代理可保留完整对话历史和计划状态,RAG 管道可一次性提供大型文档集,减少多步流程中的碎片化和目标漂移。

这些特性使 Super 成为单节点上编排多个代理的强大选择,从代码生成与调试,到研究摘要、警报分级和文档分析。

快速上手

Nemotron 3 Super 助您构建可扩展、高效的多代理 AI,同时保持高准确率。开放权重、数据集和配方提供完全透明度,可微调并部署到从工作站到云端的自家基础设施。

准备大规模运行多代理 AI 吗?

致谢

感谢所有贡献将 Nemotron 3 Super 引入 SGLang 的人员。

NVIDIA:Nirmal Kumar Juluru、Anusha Pant、Max Xu、Daniel Afrimi、Shahar Mor、Roi Koren、Ann Guan 等众多贡献者

SGLang 团队与社区:Baizhou Zhang、Jiajun Li、Ke Bao、Lingyan Hao、Mingyi Lu