SGLang - AI资讯 | 赢政天下

SGLang在NVIDIA GTC 2026的高光时刻

SGLang团队携多项活动亮相NVIDIA GTC 2026，包括主旨演讲展示、开源AI专题讨论、动手训练实验室，以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天，五场盛会，聚焦LLM生态核心，汇聚OpenAI、xAI、Meta等巨头代表。本文详尽回顾各环节亮点：从Jensen Huang主旨演讲中SGLang的生态认可，到RadixArk团队的性能调优演示，再到Miles RL框架的深度分享，以及LinkedIn工程师揭示的2-3倍H100吞吐量优化。展望未来，开源基础设施正加速融合生产生态，推动搜索、推荐与Agentic AI创新。（128字）

SGLang 中的 Elastic EP：DeepSeek MoE 部署的部分故障容忍

为高效服务大规模 Mixture-of-Experts (MoE) 模型，宽 Expert Parallelism (EP) 策略已成为必需，但其可靠性瓶颈突出：单一硬件故障可能导致整个实例崩溃，重启需数分钟。为此，SGLang 集成 Elastic EP，通过解耦专家与 GPU 的刚性绑定、维护冗余专家，实现故障检测后秒级重分布专家权重，服务中断不超过10秒，较传统重启减少90%。性能测试显示，Elastic EP 与标准 DeepEP 相当，无静态性能损失。Mooncake EP 作为容错通信后端，提供高性能 RDMA 和快速故障检测。启用只需简单参数配置，提升 MoE 推理弹性。（128字）

SGLang 日零支持 NVIDIA Nemotron 3 Super，赋能高效多代理系统

SGLang 宣布 Day-0 支持 NVIDIA Nemotron 3 Super，这是 Nemotron 3 系列领先的开源模型，专为多代理协作设计。Nemotron 3 Super 采用 120B 参数混合 MoE 架构，每前向传播仅激活 12B 参数，在编码、工具调用和指令遵循上表现出色，支持 1M 上下文长度。Artificial Analysis 图表显示其在智能与开放性上领先同类模型。文章详解安装 SGLang 并部署模型，支持多代理推理工作负载，如规划、推理和工具链。提供 Hugging Face 下载链接、SGLang Cookbook 和技术报告，助力开发者构建可扩展、高效的多代理 AI 系统。

SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃

SGLang团队与NVIDIA紧密合作，在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后，现扩展至Blackwell Ultra的GB300 NVL72，在InferenceXv2基准上较H200提升高达25倍。同时，GB200 NVL72性能在4个月内提升8倍。这些成果源于软硬件协同优化，显著降低延迟、提升吞吐量并减少每token成本。未来将进一步支持MTP、多模型调优及Vera Rubin系统，推动前沿推理模型部署成本降低。（128字）

GB300 NVL72部署DeepSeek：长上下文推理大幅提升

Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展，采用prefill–decode disaggregation (PD)、chunked pipeline parallelism (PP)、wide expert parallelism (Wide-EP)、multi-token prediction (MTP)等技术。在长上下文负载下，SGLang在GB300 NVL72上实现最高226 TPS/GPU（较GB200提升1.53X），MTP进一步提升用户吞吐量1.87X。与GB200同等延迟条件下，GB300 TPS/GPU提升1.4X–1.6X。亮点包括EP解码扩展、PP预填充优化及更快注意力内核。复现指南见GitHub issue:18703。（128字）

释放计算潜能：Qwen3与Qwen3-VL在AMD MI300X上的极致延迟优化

阿里云Qwen团队与AMD AI框架团队携手，在AMD Instinct™ MI300X系列GPU上基于SGLang框架，对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线，TTFT提升1.67×，TPOT提升2.12×；Qwen3-VL-235B TTFT提升1.62×，TPOT提升1.90×。优化聚焦PTPC FP8量化、TP8并行策略、Attention KV-Cache布局优化、MoE负载均衡及内核融合等多维度，所有工作开源于GitHub。MI300X凭借192GB HBM3内存和5.3TB/s带宽，成为大模型推理理想平台。本文详解这些技术突破，推动交互式AI应用的低延迟部署。（128字）

AAAI 2025：LMSYS Org 发布Chatbot Arena最新基准

LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统，通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+ 的 Elo 分数领跑，紧随其后的是 GPT-4o 和 Gemini 1.5 Pro。报告强调了 SGLang 等优化框架在推理速度上的突破，并分析了开源模型如 Llama 3.1 的强劲崛起。本次更新覆盖了 100+ 模型，数据来源于数百万匿名对战，体现了真实用户偏好。该基准已成为 AI 模型评估的金标准，推动行业透明竞争。（128字）

MLPerf Auto v0.5 基准结果发布：LMSYS Org 领跑

MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果，这是针对自动化机器学习（AutoML）的最新标准。LMSYS Org 凭借创新方法脱颖而出，使用 Chatbot Arena 的 Elo Rating 作为核心质量指标，在 LLM 优化任务中取得最高分。他们采用 SGLang 运行时和 vLLM，针对 Llama 3.1 405B 等模型进行高效自动化调优，实现 Elo 分数超过 1300。结果凸显了实时用户偏好数据在 AutoML 中的潜力，同时展示了多节点分布式训练的性能。其他参赛者如 Google、NVIDIA 等也提交了结果，但 LMSYS 在质量-效率权衡上领先。本次基准强调了 LLM 时代 AutoML 的新挑战与机遇。（128字）

DeepSeek Inference 5.1 基准测试全解析

DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎，在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化，支持 SGLang 等框架，显著提升了吞吐量和延迟性能。测试数据显示，在 Llama 3.1 405B 等模型上，DeepSeek Inference 5.1 的性能超越了 vLLM 和 TensorRT-LLM 等竞品，Elo Rating 排名前列。文章详解其关键特性、基准结果及实际部署建议，助力开发者选择最佳推理方案。（128字）

ISO-AUS：MLCommons发布新一代AI推理基准

MLCommons与LMSYS Org合作推出ISO-AUS基准测试，这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制，涵盖从边缘设备到云端服务器的多种场景。测试结果显示，领先模型如GPT-4o在Elo Rating上领先，但开源模型Llama 3.1在SGLang框架下表现出色，资源效率提升30%。该基准强调实际部署中的安全性与可扩展性，为AI行业提供可靠的性能评估标准。未来将定期更新，支持更多硬件平台。（128字）

KTransformers加速SGLang的混合推理

KTransformers项目为Mixture-of-Experts（MoE）模型的CPU/GPU混合推理提供了一系列优化，显著提升了计算效率。通过引入AMX优化的CPU内核和高效的设备协调机制，KTransformers解决了传统混合推理中的协调开销和计算资源未有效利用的问题，使得在单机上部署万亿参数模型成为可能。

SGLang Pipeline Parallelism：百万Token上下文扩展与性能突破

SGLang推出高度优化的Pipeline Parallelism（PP）实现，专为超长上下文推理设计。通过集成Chunked Pipeline Parallelism、Asynchronous P2P Communication和Dynamic Chunking机制，该实现实现行业领先性能，并无缝兼容其他并行策略。在多节点部署中，PP4 TP8配置下DeepSeek-V3.1的Prefill Throughput达TP8的3.31倍，较TP32提升30.5%。同时，TTFT降低高达67.9%，强扩展效率达82.8%。本文深入剖析PP在通信量、气泡比率及实现复杂度上的优势，证明其在跨节点大规模扩展中的独特价值，为万亿参数模型超长上下文推理提供高效开源方案。（128字）

AMD GPU 上 FP4 混合精度推理优化

随着前沿大语言模型（LLM）规模不断扩大，对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式，其中 FP4（4 位浮点）量化备受关注，例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5 倍，同时在 MMLU 等基准上质量损失最小。然而，现有的 AMD Instinct MI250 和 MI300 系列 GPU 缺乏原生 FP4 支持。为此，我们开发了 Petit——专为 AMD GPU 优化的 FP16/BF16 × FP4 混合精度内核集合。它在 MI200 和 MI300 系列上实现 FP4 模型高效推理：使用 SGLang 时端到端性能提升 1.74 倍，矩阵乘法比 hipBLASLt 快至 3.7 倍。Petit 已开源并集成至 SGLang 0.4.10，支持无缝部署 Llama 3.3 70B FP4 模型。（128 字）

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力，以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子，SGLang实现了完全确定性推理，同时兼容chunked prefill、CUDA graphs、radix cache和非贪婪采样，使用CUDA graphs可获2.8x加速，性能开销仅34.35%（优于TML的61.5%）。进一步，与slime结合，实现100%可重现RL训练，在Qwen3-8B上验证两轮独立训练曲线完全一致。通过全面测试套件验证确定性，支持FlashInfer、FlashAttention 3和Triton后端，适用于调试与科学实验。未来将优化性能至20%以内开销。

GB200 NVL72部署DeepSeek优化（二）：预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一，本文分享SGLang团队在上篇博客基础上，对DeepSeek V3/R1推理性能的进一步优化，包括FP8 attention、NVFP4 MoE、大规模专家并行（EP）、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下，SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s（2000 token输入），较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE，也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等，精度损失微乎其微。实验验证了端到端性能大幅提升，并分析了内核级加速效果。（128字）

携手SGLang：在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts（MoE）模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡，尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化，包括单节点TP-8预填充、小规模EP-16解码、FlashMLA-FP8和DeepGEMM swapAB等内核优化，以及Single-Batch Overlap（SBO）和异步Expert Affinity Load Balancer等调度机制。实验显示，每节点在4096 token输入序列上实现16.5k输入token/s和5.7k输出token/s的SOTA性能，这是H20上首次全面工业实践研究。

PD-Multiplexing：GreenContext驱动的高好吞吐LLM服务新范式

本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果，该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext，实现同一进程内GPU资源的轻量级细粒度分区，支持prefill和decode阶段的intra-GPU空间共享，避免KV cache跨实例迁移，并动态分配SM资源。该方法解耦prefill和decode执行，确保严格SLO（如TTFT和ITL），基准测试显示在H200上相比chunked-prefill显著提升TTFT，在8xA100s真实负载下goodput最高提升3.06x。未来将提供详细教程。（128字）

SGLang 即日支持 DeepSeek-V3.2 稀疏注意力机制

SGLang 团队宣布即日（Day 0）支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus，通过持续训练引入 DeepSeek Sparse Attention (DSA)，一种由 Lightning Indexer 驱动的细粒度稀疏注意力机制，在训练和推理中显著提升效率，尤其适用于长上下文场景（达 128K）。SGLang 集成了 Lightning Indexer 支持、Native Sparse Attention (NSA) 后端（包括 FlashMLA 和 FlashAttention-3 Sparse），并优化了动态缓存管理，降低内存开销，实现 GPU 优化的稀疏注意力。文章提供 NVIDIA、AMD 和 NPU 的快速启动命令，并展望未来功能如 Multi-token Prediction (MTP) 和 FP8 KV Cache。

NVIDIA DGX Spark 深度评测：本地 AI 推理新标杆

NVIDIA DGX Spark 是一款紧凑型一体机，将超级计算级性能带入桌面工作站。通过 NVIDIA 早期访问计划，我们深入测试了这款设备。它搭载 GB10 Grace Blackwell Superchip，提供 128 GB 统一内存，支持 FP4 精度下高达 1 PFLOP 计算力。测试显示，在 SGLang 和 Ollama 框架下，DGX Spark 擅长运行小型模型（如 Llama 3.1 8B），批处理时吞吐量出色；大型模型（如 Llama 3.1 70B）适合原型开发。统一内存设计消除数据传输开销，投机解码可加速 2 倍。尽管内存带宽（273 GB/s）是瓶颈，但其外观精美、散热优秀，适合模型实验、边缘 AI 研究。两台联机可运行 4050 亿参数模型，是开发者理想平台。（128 字）

SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能

SGLang 和 NVIDIA 团队紧密合作，针对 NVIDIA Blackwell 架构优化推理性能，利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性，在 GB200 NVL72 系统上实现 DeepSeek R1 模型的惊人吞吐量：每 GPU 预填充 26k 输入 token/秒，解码 13k 输出 token/秒。在 SemiAnalysis InferenceMAX v1 基准中，Blackwell GPU（GB200/B200）搭配 SGLang 比 Hopper GPU（H100/H200）性能提升高达 4 倍，覆盖整个延迟-吞吐量 Pareto 前沿。SGLang 通过 Prefill-Decode 分离、大规模专家并行等系统级优化，充分发挥 Blackwell 硬件潜力。未来将进一步优化 DeepSeek v3.2 等模型，并加强与 SemiAnalysis 合作。（128 字）

NVIDIA DGX Spark上优化GPT-OSS：释放Spark最大潜力

NVIDIA DGX Spark正式发布一周后，我们与NVIDIA紧密合作，在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型，支持SGLang框架。性能亮眼：GPT-OSS 20B达到约70 tokens/s，GPT-OSS 120B约50 tokens/s，堪称目前最先进水平，完全支持本地编码代理运行。本文详细指导如何在DGX Spark上运行这些模型、进行性能基准测试、连接Open WebUI聊天界面，甚至通过LMRouter完全本地化运行Claude Code。附带详细基准表格和演示视频，助力用户将DGX Spark打造成强大的本地AI工作站。（128字）

无免费午餐：MiniMax M2解构高效注意力机制

SGLang宣布首日支持MiniMax全新旗舰模型M2，这是一款紧凑、高速且成本效益高的MoE模型，总参数2300亿、活跃参数仅100亿，专为编码和代理任务打造顶级性能，同时保持强大通用智能。尽管高效注意力机制理论诱人，MiniMax团队在M2开发中最终回归全注意力。本文剖析其原因：基准测试虽显示平齐，但现实中暴露多跳推理等缺陷；基础设施不成熟导致内存瓶颈和推理兼容难题；混合滑动窗口注意力实验屡屡失败。成功需评估、数据与基础设施三管齐下，方能从理论走向生产。（128字）

🚀 AutoRound 携手 SGLang：高效量化模型推理新纪元

Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作，支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术，实现 INT2-INT8 等低比特量化，在 INT2 精度下相对准确率提升高达 2.1 倍，量化 72B 模型仅需 37 分钟。集成后，开发者可直接在 SGLang 运行时部署量化模型，显著降低延迟。该方案支持多种架构、设备和格式，社区下载量超 200 万。未来将优化 MXFP4/NVFP4 和混合比特量化，推动多模态和代理任务部署。（128 字）

Miles发布：点燃大规模MoE训练的企业级RL框架

千里之行，始于足下。今天，RadixArk团队发布了Miles，一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建，后者已悄然驱动众多后训练管道和大模型MoE训练（如GLM-4.6）。slime证明了轻量设计的可行性，而Miles则更进一步，提供企业级可靠性和大规模控制。新功能包括真On-Policy支持（KL散度精确为0）、内存优化、在线草稿模型训练（rollout加速25%以上）等。未来将支持GB300硬件、多模态训练和弹性扩展，助力高效可靠的RL训练。（128字）

从研究到生产：EAGLE-3在Vertex AI加速开源LLM推理2-3倍

推测解码（Speculative Decoding）能显著提升LLM推理速度，但传统方法需额外训练低效的草稿模型。Vertex AI采用EAGLE-3创新方案，仅在目标模型内部层添加轻量级草稿头（仅占2-5%模型大小），简化训练并实现2x-3x解码加速。本文详述从数据清洗、嵌入生成、训练到使用SGLang在Vertex AI大规模部署的完整管道，分享关键挑战与经验教训，包括合成数据管道、离线训练、聊天模板应用、掩码处理及Zero-Overhead Overlap Scheduler优化。基准测试显示，在Llama 4 Scout 17B上，EAGLE-3显著降低TPOT并提升吞吐量。（128字）

SGLang推理加速：原生集成NVIDIA Model Optimizer，实现无缝量化部署

SGLang最新功能原生支持NVIDIA Model Optimizer量化！这一集成简化了从全精度模型到高性能量化端点的整个优化与部署流程，无需多步工具切换。通过SGLang中的ModelOpt API，只需三步即可完成量化（支持NVFP4、MXFP4、FP8等）、导出与部署。性能表现突出：在NVIDIA B200上，Model Optimizer与SGLang优化可实现比原生FP8高达2倍的单GPU吞吐量。结合Blackwell架构，从DGX Spark到GB300 NVL72均可显著提升延迟降低与内存节省。提供完整示例代码，助力开发者快速上手。（128字）

让张量翱翔：R-Fork 加速大模型权重加载

本文介绍 Tensor R-Fork（Tensor Remote Fork），一种创新的权重加载方法，利用高效的跨节点设备间互连，从运行中的 SGLang 实例零拷贝加载张量至新实例。该技术带来三大优势：显著加速权重加载（如 Deepseek-R1 从数分钟缩短至秒级）、消除本地磁盘/DRAM 冗余存储（节省约 600GB）、不干扰推理服务。核心设计基于 GPU-Direct RDMA 构建 P2P 权重存储架构，支持 NCCL 和 TransferEngine 两种后端。性能测试显示，在 8 张 NVIDIA H20 GPU 上加载 Deepseek-R1 模型时间大幅缩短，已实现生产就绪。

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型，该模型采用混合 Transformer-Mamba 架构与 MoE 设计，总参数 30B、激活参数仅 3.6B，支持 1M 上下文长度。在 NVFP4 精度下，通过 Quantization-Aware Distillation (QAD) 技术保持高准确率，同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先，适用于构建企业级 AI 代理。SGLang 提供即插即用支持，开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。（128 字）

SGLang即刻支持MiMo-V2-Flash模型

小米MiMo-V2-Flash模型总参数达309B，激活参数仅15B，专为最大化解码效率而设计，核心采用滑动窗口注意力（SWA）和多层MTP机制。该模型针对真实服务负载优化，支持不同硬件上吞吐量与延迟的灵活权衡。结合SGLang的Spec v2运行时，几乎零开销支持多层MTP和高效SWA执行，在H200上实现TPOT与吞吐量的完美平衡。本文详解模型设计、推理高效机制、硬件感知配置、SGLang快速服务支持，并提供基准数据与部署指南。（128字）

Mini-SGLang：轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架，仅用5k行Python代码，即实现了高性能LLM推理，支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Parallelism等先进特性。它兼容OpenAI API，支持Llama-3和Qwen-3模型，适合学习和研究原型开发。基准测试显示，在H200 GPU上，Mini-SGLang的离线吞吐量超越Nano-vLLM，在线服务延迟与SGLang相当。通过Overlap Scheduling有效隐藏CPU开销，利用FlashAttention-3和FlashInfer内核，确保顶尖性能。该框架提供交互Shell模式、NVTX注解和基准工具，便于调试和比较vLLM、TensorRT-LLM等系统。（128字）

SGLang (共34篇)