LMSYS - AI资讯 | 赢政天下

秒级更新1T参数：大规模分布式RL中的P2P权重传输

本文介绍了一种基于RDMA的点对点权重更新机制，用于SGLang中的RL工作负载，作为传统NCCL广播方法的补充。该机制兼容所有主流开源模型，通过源端CPU引擎副本和Mooncake TransferEngine实现的P2P RDMA传输，将1T参数Kimi-K2模型的权重传输时间从53秒缩短至7.2秒，仅需额外消耗每个训练rank的32G CPU内存。这种优化减少了网络冗余，使推理服务器能更快恢复 rollout 操作。文章讨论了NCCL的局限性、RDMA的优势，以及新设计的细节，包括源端引擎副本、P2P映射和零拷贝传输。该方案在性能、兼容性和灵活性上显著优于现有方法，为大规模分布式RL训练提供高效解决方案。

DeepSeek-V4：首日支持推理与强化学习

SGLang 团队宣布，DeepSeek-V4 在发布当日即提供全面的推理与强化学习支持。SGLang 和 Miles 组成首个开源技术栈，专为其混合稀疏注意力架构及多样化连接优化而设计。此次发布包括了影子基数前缀缓存、推测解码加速及 HiSparse 等多项性能优化。

HiSparse：层次化内存系统加速稀疏注意力

HiSparse通过层次化内存系统解决稀疏注意力的内存瓶颈问题，显著提高了模型的并发吞吐量。其设计利用GPU和主机内存协同工作，能够在高并发情况下实现接近线性的吞吐量扩展。

SGLang在NVIDIA GTC 2026的高光时刻

SGLang团队携多项活动亮相NVIDIA GTC 2026，包括主旨演讲展示、开源AI专题讨论、动手训练实验室，以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天，五场盛会，聚焦LLM生态核心，汇聚OpenAI、xAI、Meta等巨头代表。本文详尽回顾各环节亮点：从Jensen Huang主旨演讲中SGLang的生态认可，到RadixArk团队的性能调优演示，再到Miles RL框架的深度分享，以及LinkedIn工程师揭示的2-3倍H100吞吐量优化。展望未来，开源基础设施正加速融合生产生态，推动搜索、推荐与Agentic AI创新。（128字）

SGLang 中的 Elastic EP：DeepSeek MoE 部署的部分故障容忍

为高效服务大规模 Mixture-of-Experts (MoE) 模型，宽 Expert Parallelism (EP) 策略已成为必需，但其可靠性瓶颈突出：单一硬件故障可能导致整个实例崩溃，重启需数分钟。为此，SGLang 集成 Elastic EP，通过解耦专家与 GPU 的刚性绑定、维护冗余专家，实现故障检测后秒级重分布专家权重，服务中断不超过10秒，较传统重启减少90%。性能测试显示，Elastic EP 与标准 DeepEP 相当，无静态性能损失。Mooncake EP 作为容错通信后端，提供高性能 RDMA 和快速故障检测。启用只需简单参数配置，提升 MoE 推理弹性。（128字）

ROCm支持Miles：AMD GPU上的大规模RL后训练

强化学习（RL）已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持，AMD GPU用户可以在MI300/350级集群上运行现代RL管道，包括分布式rollout和GRPO训练。

TC

无法作弊的AI排行榜，竟由排名公司资助

人工智能模型层出不穷，竞争白热化，谁是真正的最强？Arena（前身为LM Arena）已成为前沿大语言模型（LLM）的公认公共排行榜，在短短七个月内从加州大学伯克利分校博士研究项目崛起，深刻影响融资、产品发布和公关周期。该榜单以‘无法作弊’著称，通过盲测用户投票机制，确保公平性。如今，它甚至获得被其排名的公司资助，引发行业热议。这不仅重塑AI评估标准，也暴露了排行榜背后的权力博弈。

SGLang 日零支持 NVIDIA Nemotron 3 Super，赋能高效多代理系统

SGLang 宣布 Day-0 支持 NVIDIA Nemotron 3 Super，这是 Nemotron 3 系列领先的开源模型，专为多代理协作设计。Nemotron 3 Super 采用 120B 参数混合 MoE 架构，每前向传播仅激活 12B 参数，在编码、工具调用和指令遵循上表现出色，支持 1M 上下文长度。Artificial Analysis 图表显示其在智能与开放性上领先同类模型。文章详解安装 SGLang 并部署模型，支持多代理推理工作负载，如规划、推理和工具链。提供 Hugging Face 下载链接、SGLang Cookbook 和技术报告，助力开发者构建可扩展、高效的多代理 AI 系统。

SGLang在NVIDIA GB300 NVL72上实现25倍推理性能飞跃

SGLang团队与NVIDIA紧密合作，在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后，现扩展至Blackwell Ultra的GB300 NVL72，在InferenceXv2基准上较H200提升高达25倍。同时，GB200 NVL72性能在4个月内提升8倍。这些成果源于软硬件协同优化，显著降低延迟、提升吞吐量并减少每token成本。未来将进一步支持MTP、多模型调优及Vera Rubin系统，推动前沿推理模型部署成本降低。（128字）

GB300 NVL72部署DeepSeek：长上下文推理大幅提升

Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展，采用prefill–decode disaggregation (PD)、chunked pipeline parallelism (PP)、wide expert parallelism (Wide-EP)、multi-token prediction (MTP)等技术。在长上下文负载下，SGLang在GB300 NVL72上实现最高226 TPS/GPU（较GB200提升1.53X），MTP进一步提升用户吞吐量1.87X。与GB200同等延迟条件下，GB300 TPS/GPU提升1.4X–1.6X。亮点包括EP解码扩展、PP预填充优化及更快注意力内核。复现指南见GitHub issue:18703。（128字）

SGLang-Diffusion：生产级视频生成的高级优化

继两月进展更新后，SGLang-Diffusion团队深入剖析了多项高级优化，使其成为可靠的生产级视频生成框架。这些优化聚焦可扩展性、效率与稳定性，针对扩散模型大规模部署的关键瓶颈。核心改进包括：从帧级到Token级SP-Sharding减少填充开销；Parallel Folding解耦文本编码器与DiT并行策略；分布式VAE并行编码/解码消除高分辨率内存瓶颈；修复Cache-DiT多请求稳定性问题；优化视频保存去除序列化开销；融合CuTeDSL JIT内核提升LayerNorm效率。性能测试显示，在Wan2.2 T2V任务中显著超越LightX2V。未来将继续推进2026Q1路线图。（128字）

释放计算潜能：Qwen3与Qwen3-VL在AMD MI300X上的极致延迟优化

阿里云Qwen团队与AMD AI框架团队携手，在AMD Instinct™ MI300X系列GPU上基于SGLang框架，对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线，TTFT提升1.67×，TPOT提升2.12×；Qwen3-VL-235B TTFT提升1.62×，TPOT提升1.90×。优化聚焦PTPC FP8量化、TP8并行策略、Attention KV-Cache布局优化、MoE负载均衡及内核融合等多维度，所有工作开源于GitHub。MI300X凭借192GB HBM3内存和5.3TB/s带宽，成为大模型推理理想平台。本文详解这些技术突破，推动交互式AI应用的低延迟部署。（128字）

CKAN Croissant：MLCommons AI模型基准新纪元

MLCommons近日发布CKAN Croissant基准，基于Croissant v1.0元数据格式，旨在标准化AI模型评估。LMSYS Org参与开发，该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引擎，支持多模态模型对比。测试覆盖100+模型，顶级表现者包括GPT-4o（Elo 1300+）和Llama 3.1。关键创新包括自动化模型注册、零样本评估协议及可复现容器化部署，推动开源AI公平竞争。未来将扩展至边缘设备基准。（128字）

Ares基准正式发布

MLCommons与LMSYS Org联合宣布Ares开源基准的推出，这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统，测试模型在复杂任务中的表现，包括工具调用和多轮交互。首批结果显示，GPT-4o和Claude 3.5 Sonnet位居前列，得分超过1400 Elo。新基准采用SGLang优化，支持高效评估大规模模型，推动AI代理标准化发展。该框架开源，欢迎社区贡献，标志着AI评估进入多模态代理时代。（128字）

MLPerf Auto v0.5 基准结果发布：LMSYS Org 领跑

MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果，这是针对自动化机器学习（AutoML）的最新标准。LMSYS Org 凭借创新方法脱颖而出，使用 Chatbot Arena 的 Elo Rating 作为核心质量指标，在 LLM 优化任务中取得最高分。他们采用 SGLang 运行时和 vLLM，针对 Llama 3.1 405B 等模型进行高效自动化调优，实现 Elo 分数超过 1300。结果凸显了实时用户偏好数据在 AutoML 中的潜力，同时展示了多节点分布式训练的性能。其他参赛者如 Google、NVIDIA 等也提交了结果，但 LMSYS 在质量-效率权衡上领先。本次基准强调了 LLM 时代 AutoML 的新挑战与机遇。（128字）

AILuminate越狱基准V05发布：AI模型安全排行大洗牌

MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉！本次更新引入了更先进的越狱攻击策略，覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 Sonnet和Llama 3.1 405B在<strong>jailbreak resistance Elo rating</strong>上展开激烈角逐。Claude 3.5 Sonnet以1485分领跑，GPT-4o紧随其后达1472分，而开源模型Gemini 1.5 Pro仅1038分。本版强调多轮对话和SGLang加速推理，揭示了当前LLM安全脆弱性。详细排行和攻击方法剖析，帮助开发者提升模型鲁棒性。（128字）

ISO-AUS：MLCommons发布新一代AI推理基准

MLCommons与LMSYS Org合作推出ISO-AUS基准测试，这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制，涵盖从边缘设备到云端服务器的多种场景。测试结果显示，领先模型如GPT-4o在Elo Rating上领先，但开源模型Llama 3.1在SGLang框架下表现出色，资源效率提升30%。该基准强调实际部署中的安全性与可扩展性，为AI行业提供可靠的性能评估标准。未来将定期更新，支持更多硬件平台。（128字）

海外AI精选