SGLang 日零支持 NVIDIA Nemotron 3 Super，赋能高效多代理系统

2026年03月12日 717 阅读 - 阅读来源: LMSYS

LMSYS SGLang Nemotron 3 Super 多代理系统 NVIDIA MoE架构

我们兴奋地宣布，SGLang 已实现对 NVIDIA Nemotron 3 Super 的 Day-0 支持。

Nemotron 3 Super 是 Nemotron 3 系列中的领先开源模型，专为运行多个协作代理而设计。多代理系统涉及规划、推理和工具链的串联，会生成远超单轮对话的 token 数量，同时需要在每步保持强大推理能力。

Nemotron 3 Super 是一个 120B 参数的混合 MoE 模型，每前向传播仅激活 12B 参数，在编码、工具调用和指令遵循方面提供领先准确率，同时成本仅为几分之一，并支持 1M token 上下文，让代理在长流程中保持对话和计划状态。

Artificial Analysis 图表显示 Nemotron 3 Super 在智能与开放性对比中领先同类热门开源模型

如上图所示，Nemotron 3 Super 在 Artificial Analysis Openness 指数上领先。与其他开源模型相比，Nemotron 提供完全开放的权重、数据集和配方，开发者可轻松自定义、优化并部署到自家基础设施，确保最大隐私和安全。

本文将指导安装 SGLang 并部署 Nemotron 3 Super 进行推理。

关于 Nemotron 3 Super

架构：专家混合 (Mixture of Experts, MoE) 结合混合 Transformer-Mamba 架构
- 在其尺寸类别中最高吞吐效率，比前代 Nemotron Super 模型 (Llama Nemotron Super 1.5) 高达 5 倍
- Multi-Token Prediction (MTP)：单前向传播同时预测多个未来 token，大幅加速长文本生成
- 支持 Thinking Budget，以最小推理 token 生成实现最佳准确率
准确率：在其尺寸类别中 Artificial Analysis Intelligence Index 领先
- 比前代 Nemotron Super 模型高达 2 倍准确率
- Latent MoE 允许以单专家推理成本调用 4 个专家
模型规模：总 120B 参数，活跃 12B 参数
上下文长度：高达 1M
模型 I/O：文本输入，文本输出
支持 GPU：B200、H100、H200、DGX Spark、RTX 6000
快速上手：
- 从 Hugging Face 下载模型权重 - BF16、FP8 和 NVFP4
- 使用 SGLang 运行推理
- 技术报告，用于构建自定义优化模型

安装与快速启动

欲简化 SGLang 设置，请参考入门 Cookbook，或通过 NVIDIA Brev 启动。

运行以下命令安装依赖：

pip install 'git+https://github.com/sgl-project/sglang.git#subdirectory=python'

然后启动模型服务。以下命令适用于 4xH200 配置，详见 Cookbook：

# BF16
python3 -m sglang.launch_server \
  --model-path nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16 \
  --host 0.0.0.0 \
  --port 5000 \
  --trust-remote-code \
  --tp 4 \
  --tool-call-parser qwen3_coder \
  --reasoning-parser nemotron_3

服务器启动后，使用以下代码提示模型：

from openai import OpenAI

# 启动服务器时使用的模型名
SERVED_MODEL_NAME = "nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16"

BASE_URL = f"http://localhost:5000/v1"
API_KEY = "EMPTY"  # SGLang 服务器默认无需 API 密钥

client = OpenAI(base_url=BASE_URL, api_key=API_KEY)

resp = client.chat.completions.create(
    model=SERVED_MODEL_NAME,
    messages=[
        {"role": "system", "content": "You are a helpful AI assistant."},
        {"role": "user", "content": "Give me 3 bullet points about SGLang."}
    ],
    temperature=0.6,
    max_tokens=512,
)
print("Reasoning:", resp.choices[0].message.reasoning_content, "\nContent:", resp.choices[0].message.content)

Nemotron 3 Super 完美适配多代理与推理工作负载

Artificial Analysis 图表显示 Nemotron 3 Super 在智能与效率对比中领先同类热门开源模型

如上图所示，该模型在 Artificial Analysis 基准上实现领先准确率与更高效率，是多代理系统的理想选择。

1M token 上下文专为长时程代理任务设计：代理可保留完整对话历史和计划状态，RAG 管道可一次性提供大型文档集，减少多步流程中的碎片化和目标漂移。

这些特性使 Super 成为单节点上编排多个代理的强大选择，从代码生成与调试，到研究摘要、警报分级和文档分析。

快速上手

Nemotron 3 Super 助您构建可扩展、高效的多代理 AI，同时保持高准确率。开放权重、数据集和配方提供完全透明度，可微调并部署到从工作站到云端的自家基础设施。

准备大规模运行多代理 AI 吗？

从 Hugging Face 下载 Nemotron 3 Super 模型权重 - BF16、FP8 和 NVFP4
使用 Cookbook 和 Brev 启动运行 SGLang 推理
阅读 Nemotron 3 Super 技术报告

致谢

感谢所有贡献将 Nemotron 3 Super 引入 SGLang 的人员。

NVIDIA：Nirmal Kumar Juluru、Anusha Pant、Max Xu、Daniel Afrimi、Shahar Mor、Roi Koren、Ann Guan 等众多贡献者

SGLang 团队与社区：Baizhou Zhang、Jiajun Li、Ke Bao、Lingyan Hao、Mingyi Lu

本文来自 LMSYS 博客，赢政天下（winzheng.com）进行了全文翻译。点击这里查看原文如果转载中文，请注明出处，谢谢支持！

SGLang 日零支持 NVIDIA Nemotron 3 Super，赋能高效多代理系统

关于 Nemotron 3 Super

安装与快速启动

Nemotron 3 Super 完美适配多代理与推理工作负载

快速上手

致谢

相关测评

LMSYS SGLang在NVIDIA GTC 2026的高光时刻

LMSYS SGLang 中的 Elastic EP：DeepSeek MoE 部署的部分故障容忍

LMSYS SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃

LMSYS GB300 NVL72部署DeepSeek：长上下文推理大幅提升