SGLang 与 Miles 为 Nemotron 3 Ultra 提供 Day-0 支持

Jun 29, 2026 15 Views - Read Source LMSYS

LMSYS NVIDIA Nemotron SGLang 自主代理 MoE 推理强化学习

This article has not been translated into English yet. Showing the original Chinese version.

SGLang 与 Miles 团队宣布对 NVIDIA Nemotron 3 Ultra 实现 Day-0 支持，助力长时程自主代理系统从短交互转向持久化工作流。

代理 AI 系统正从简短提示-响应模式转向需要规划、工具调用、结果检验、错误恢复并跨长任务持续工作的持久化流程。这些代理需要强大的推理能力、快速推理、长上下文理解以及可靠的工具使用能力。

Nemotron 3 Ultra 核心特性

Nemotron 3 Ultra 是 Nemotron 家族中的开放前沿推理模型，专为长时程自主代理优化，适用于编码、深度研究、企业工作流和 EDA 等场景。

用户可通过 SGLang Docker 容器快速部署，推荐使用官方 cookbook 或 NVIDIA Brev launchable。

启动服务命令支持 8x B200 配置，并可通过 OpenAI 兼容客户端调用，获取 reasoning_content 与生成结果。

Nemotron 3 Ultra 集成主要代理框架，支持 GRPO RL 训练。关键创新包括：

在代理生产力、指令遵循和长上下文任务上领先开源模型，成本最高可节省 30%。

Miles 框架已在 128 张 H200 GPU 上验证 GRPO RL 训练，支持 TP/PP/EP/DP 并行策略与 DP attention，训练与 rollout log-prob 差异保持在 0.01 左右，证明 pipeline 高度 on-policy。