LMSYS - AI Evaluation | 赢政天下

HiSparse：层次化内存系统加速稀疏注意力

HiSparse通过层次化内存系统解决稀疏注意力的内存瓶颈问题，显著提高了模型的并发吞吐量。其设计利用GPU和主机内存协同工作，能够在高并发情况下实现接近线性的吞吐量扩展。

SGLang团队携多项活动亮相NVIDIA GTC 2026，包括主旨演讲展示、开源AI专题讨论、动手训练实验室，以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天，五场盛会，聚焦LLM生态核心，汇聚OpenAI、xAI、Meta等巨头代表。本文详尽回顾各环节亮点：从Jensen Huang主旨演讲中SGLang的生态认可，到RadixArk团队的性能调优演示，再到Miles RL框架的深度分享，以及LinkedIn工程师揭示的2-3倍H100吞吐量优化。展望未来，开源基础设施正加速融合生产生态，推动搜索、推荐与Agentic AI创新。（128字）

LMSYS

SGLang 中的 Elastic EP：DeepSeek MoE 部署的部分故障容忍

为高效服务大规模 Mixture-of-Experts (MoE) 模型，宽 Expert Parallelism (EP) 策略已成为必需，但其可靠性瓶颈突出：单一硬件故障可能导致整个实例崩溃，重启需数分钟。为此，SGLang 集成 Elastic EP，通过解耦专家与 GPU 的刚性绑定、维护冗余专家，实现故障检测后秒级重分布专家权重，服务中断不超过10秒，较传统重启减少90%。性能测试显示，Elastic EP 与标准 DeepEP 相当，无静态性能损失。Mooncake EP 作为容错通信后端，提供高性能 RDMA 和快速故障检测。启用只需简单参数配置，提升 MoE 推理弹性。（128字）

LMSYS

ROCm支持Miles：AMD GPU上的大规模RL后训练

强化学习（RL）已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持，AMD GPU用户可以在MI300/350级集群上运行现代RL管道，包括分布式rollout和GRPO训练。

LMSYS

SGLang 日零支持 NVIDIA Nemotron 3 Super，赋能高效多代理系统

SGLang 宣布 Day-0 支持 NVIDIA Nemotron 3 Super，这是 Nemotron 3 系列领先的开源模型，专为多代理协作设计。Nemotron 3 Super 采用 120B 参数混合 MoE 架构，每前向传播仅激活 12B 参数，在编码、工具调用和指令遵循上表现出色，支持 1M 上下文长度。Artificial Analysis 图表显示其在智能与开放性上领先同类模型。文章详解安装 SGLang 并部署模型，支持多代理推理工作负载，如规划、推理和工具链。提供 Hugging Face 下载链接、SGLang Cookbook 和技术报告，助力开发者构建可扩展、高效的多代理 AI 系统。

LMSYS

SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃

SGLang团队与NVIDIA紧密合作，在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后，现扩展至Blackwell Ultra的GB300 NVL72，在InferenceXv2基准上较H200提升高达25倍。同时，GB200 NVL72性能在4个月内提升8倍。这些成果源于软硬件协同优化，显著降低延迟、提升吞吐量并减少每token成本。未来将进一步支持MTP、多模型调优及Vera Rubin系统，推动前沿推理模型部署成本降低。（128字）

LMSYS

GB300 NVL72部署DeepSeek：长上下文推理大幅提升

Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展，采用prefill–decode disaggregation (PD)、chunked pipeline parallelism (PP)、wide expert parallelism (Wide-EP)、multi-token prediction (MTP)等技术。在长上下文负载下，SGLang在GB300 NVL72上实现最高226 TPS/GPU（较GB200提升1.53X），MTP进一步提升用户吞吐量1.87X。与GB200同等延迟条件下，GB300 TPS/GPU提升1.4X–1.6X。亮点包括EP解码扩展、PP预填充优化及更快注意力内核。复现指南见GitHub issue:18703。（128字）

LMSYS

SGLang-Diffusion：生产级视频生成的高级优化

继两月进展更新后，SGLang-Diffusion团队深入剖析了多项高级优化，使其成为可靠的生产级视频生成框架。这些优化聚焦可扩展性、效率与稳定性，针对扩散模型大规模部署的关键瓶颈。核心改进包括：从帧级到Token级SP-Sharding减少填充开销；Parallel Folding解耦文本编码器与DiT并行策略；分布式VAE并行编码/解码消除高分辨率内存瓶颈；修复Cache-DiT多请求稳定性问题；优化视频保存去除序列化开销；融合CuTeDSL JIT内核提升LayerNorm效率。性能测试显示，在Wan2.2 T2V任务中显著超越LightX2V。未来将继续推进2026Q1路线图。（128字）

LMSYS

释放计算潜能：Qwen3与Qwen3-VL在AMD MI300X上的极致延迟优化

阿里云Qwen团队与AMD AI框架团队携手，在AMD Instinct™ MI300X系列GPU上基于SGLang框架，对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线，TTFT提升1.67×，TPOT提升2.12×；Qwen3-VL-235B TTFT提升1.62×，TPOT提升1.90×。优化聚焦PTPC FP8量化、TP8并行策略、Attention KV-Cache布局优化、MoE负载均衡及内核融合等多维度，所有工作开源于GitHub。MI300X凭借192GB HBM3内存和5.3TB/s带宽，成为大模型推理理想平台。本文详解这些技术突破，推动交互式AI应用的低延迟部署。（128字）

MLC

CKAN Croissant：MLCommons AI模型基准新纪元

MLCommons近日发布CKAN Croissant基准，基于Croissant v1.0元数据格式，旨在标准化AI模型评估。LMSYS Org参与开发，该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引擎，支持多模态模型对比。测试覆盖100+模型，顶级表现者包括GPT-4o（Elo 1300+）和Llama 3.1。关键创新包括自动化模型注册、零样本评估协议及可复现容器化部署，推动开源AI公平竞争。未来将扩展至边缘设备基准。（128字）

MLC

Ares基准正式发布

MLCommons与LMSYS Org联合宣布Ares开源基准的推出，这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统，测试模型在复杂任务中的表现，包括工具调用和多轮交互。首批结果显示，GPT-4o和Claude 3.5 Sonnet位居前列，得分超过1400 Elo。新基准采用SGLang优化，支持高效评估大规模模型，推动AI代理标准化发展。该框架开源，欢迎社区贡献，标志着AI评估进入多模态代理时代。（128字）

MLC

MLPerf Auto v0.5 基准结果发布：LMSYS Org 领跑

MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果，这是针对自动化机器学习（AutoML）的最新标准。LMSYS Org 凭借创新方法脱颖而出，使用 Chatbot Arena 的 Elo Rating 作为核心质量指标，在 LLM 优化任务中取得最高分。他们采用 SGLang 运行时和 vLLM，针对 Llama 3.1 405B 等模型进行高效自动化调优，实现 Elo 分数超过 1300。结果凸显了实时用户偏好数据在 AutoML 中的潜力，同时展示了多节点分布式训练的性能。其他参赛者如 Google、NVIDIA 等也提交了结果，但 LMSYS 在质量-效率权衡上领先。本次基准强调了 LLM 时代 AutoML 的新挑战与机遇。（128字）

AI Reviews

HiSparse：层次化内存系统加速稀疏注意力

SGLang在NVIDIA GTC 2026的高光时刻

SGLang 中的 Elastic EP：DeepSeek MoE 部署的部分故障容忍

ROCm支持Miles：AMD GPU上的大规模RL后训练

SGLang 日零支持 NVIDIA Nemotron 3 Super，赋能高效多代理系统

SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃

GB300 NVL72部署DeepSeek：长上下文推理大幅提升

SGLang-Diffusion：生产级视频生成的高级优化

释放计算潜能：Qwen3与Qwen3-VL在AMD MI300X上的极致延迟优化

CKAN Croissant：MLCommons AI模型基准新纪元

Ares基准正式发布

MLPerf Auto v0.5 基准结果发布：LMSYS Org 领跑