SGLang 日零支持 NVIDIA Nemotron 3 Super,赋能高效多代理系统

我们兴奋地宣布,SGLang 已实现对 NVIDIA Nemotron 3 Super 的 Day-0 支持。

Nemotron 3 Super 是 Nemotron 3 系列中的领先开源模型,专为运行多个协作代理而设计。多代理系统涉及规划、推理和工具链的串联,会生成远超单轮对话的 token 数量,同时需要在每步保持强大推理能力。

Nemotron 3 Super 是一个 120B 参数的混合 MoE 模型,每前向传播仅激活 12B 参数,在编码、工具调用和指令遵循方面提供领先准确率,同时成本仅为几分之一,并支持 1M token 上下文,让代理在长流程中保持对话和计划状态。

figure1
Artificial Analysis 图表显示 Nemotron 3 Super 在智能与开放性对比中领先同类热门开源模型

如上图所示,Nemotron 3 Super 在 Artificial Analysis Openness 指数上领先。与其他开源模型相比,Nemotron 提供完全开放的权重、数据集和配方,开发者可轻松自定义、优化并部署到自家基础设施,确保最大隐私和安全。

本文将指导安装 SGLang 并部署 Nemotron 3 Super 进行推理。

关于 Nemotron 3 Super

  • 架构:专家混合 (Mixture of Experts, MoE) 结合混合 Transformer-Mamba 架构
    • 在其尺寸类别中最高吞吐效率,比前代 Nemotron Super 模型 (Llama Nemotron Super 1.5) 高达 5 倍
    • Multi-Token Prediction (MTP):单前向传播同时预测多个未来 token,大幅加速长文本生成
    • 支持 Thinking Budget,以最小推理 token 生成实现最佳准确率
  • 准确率:在其尺寸类别中 Artificial Analysis Intelligence Index 领先
    • 比前代 Nemotron Super 模型高达 2 倍准确率
    • Latent MoE 允许以单专家推理成本调用 4 个专家
  • 模型规模:总 120B 参数,活跃 12B 参数
  • 上下文长度:高达 1M
  • 模型 I/O:文本输入,文本输出
  • 支持 GPU:B200、H100、H200、DGX Spark、RTX 6000
  • 快速上手

安装与快速启动

欲简化 SGLang 设置,请参考 入门 Cookbook,或通过 NVIDIA Brev 启动

运行以下命令安装依赖:

pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python'

然后启动模型服务。以下命令适用于 4xH200 配置,详见 Cookbook:

# BF16
python3 -m sglang.launch_server \
  --model-path nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
  --host 0.0.0.0 \
  --port 5000 \
  --trust-remote-code \
  --tp 4 \
  --tool-call-parser qwen3_coder \
  --reasoning-parser nemotron_3

服务器启动后,使用以下代码提示模型:

from openai import OpenAI

# 启动服务器时使用的模型名
SERVED_MODEL_NAME = "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16"

BASE_URL = f"http://localhost:5000/v1"
API_KEY = "EMPTY"  # SGLang 服务器默认无需 API 密钥

client = OpenAI(base_url=BASE_URL, api_key=API_KEY)

resp = client.chat.completions.create(
    model=SERVED_MODEL_NAME,
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Give me 3 bullet points about SGLang."}
    ],
    temperature=0.6,
    max_tokens=512,
)
print("Reasoning:", resp.choices[0].message.reasoning_content, "\nContent:", resp.choices[0].message.content)

Nemotron 3 Super 完美适配多代理与推理工作负载

figure2
Artificial Analysis 图表显示 Nemotron 3 Super 在智能与效率对比中领先同类热门开源模型

如上图所示,该模型在 Artificial Analysis 基准上实现领先准确率与更高效率,是多代理系统的理想选择。

1M token 上下文专为长时程代理任务设计:代理可保留完整对话历史和计划状态,RAG 管道可一次性提供大型文档集,减少多步流程中的碎片化和目标漂移。

这些特性使 Super 成为单节点上编排多个代理的强大选择,从代码生成与调试,到研究摘要、警报分级和文档分析。

快速上手

Nemotron 3 Super 助您构建可扩展、高效的多代理 AI,同时保持高准确率。开放权重、数据集和配方提供完全透明度,可微调并部署到从工作站到云端的自家基础设施。

准备大规模运行多代理 AI 吗?

致谢

感谢所有贡献将 Nemotron 3 Super 引入 SGLang 的人员。

NVIDIA:Nirmal Kumar Juluru、Anusha Pant、Max Xu、Daniel Afrimi、Shahar Mor、Roi Koren、Ann Guan 等众多贡献者

SGLang 团队与社区:Baizhou Zhang、Jiajun Li、Ke Bao、Lingyan Hao、Mingyi Lu

This article is from LMSYS blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!