MLCommons 发布 MLPerf Client v1.6:性能优化与用户体验升级

MLCommons 近日发布 MLPerf Client v1.6,这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备,模拟真实生成式 AI 任务,如文本摘要、内容创作和代码分析,提供响应速度和吞吐量等标准化指标。新版更新了 Windows ML 和 llama.cpp 等核心运行时,支持 Apple 平台的 MLX with Metal 和 llama.cpp with Metal,提升性能与兼容性。同时,优化了图形界面启动速度、添加进度条,并允许禁用下载确认提示,提高重复测试效率。该基准由 AMD、Intel 等公司协作开发,开源免费,可通过 mlcommons.org/benchmarks/client 下载。(128字)

MLC MLPerf Client AI基准测试
132

SGLang在NVIDIA GTC 2026的高光时刻

SGLang团队携多项活动亮相NVIDIA GTC 2026,包括主旨演讲展示、开源AI专题讨论、动手训练实验室,以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天,五场盛会,聚焦LLM生态核心,汇聚OpenAI、xAI、Meta等巨头代表。本文详尽回顾各环节亮点:从Jensen Huang主旨演讲中SGLang的生态认可,到RadixArk团队的性能调优演示,再到Miles RL框架的深度分享,以及LinkedIn工程师揭示的2-3倍H100吞吐量优化。展望未来,开源基础设施正加速融合生产生态,推动搜索、推荐与Agentic AI创新。(128字)

LMSYS SGLang NVIDIA GTC
219

MLCommons发布MLPerf Inference v6.0基准测试最新结果

MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级,以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展的DeepSeek-R1推理测试、首创的顺序推荐基准DLRMv3、文本到视频生成基准,以及基于YOLOv11 Large的物体检测升级。这些变化确保基准测试紧跟AI部署的真实场景,提供全面性能评估。多节点系统提交量激增30%,最大系统达72节点288加速器,彰显行业对大规模推理的重视。24家组织参与,推动AI透明与创新。(128字)

MLC MLPerf Inference AI基准测试
281

SGLang 中的 Elastic EP:DeepSeek MoE 部署的部分故障容忍

为高效服务大规模 Mixture-of-Experts (MoE) 模型,宽 Expert Parallelism (EP) 策略已成为必需,但其可靠性瓶颈突出:单一硬件故障可能导致整个实例崩溃,重启需数分钟。为此,SGLang 集成 Elastic EP,通过解耦专家与 GPU 的刚性绑定、维护冗余专家,实现故障检测后秒级重分布专家权重,服务中断不超过10秒,较传统重启减少90%。性能测试显示,Elastic EP 与标准 DeepEP 相当,无静态性能损失。Mooncake EP 作为容错通信后端,提供高性能 RDMA 和快速故障检测。启用只需简单参数配置,提升 MoE 推理弹性。(128字)

LMSYS SGLang Elastic EP
237

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型(LLM)的覆盖。随着行业转向更专业化开源模型,基准测试需适应部署策略与架构变化。本轮引入两大亮点:GPT-OSS 120B 新基准,基于117B参数MoE架构,擅长数学、科学推理与编码;DeepSeek-R1 交互场景,针对实时推理应用,首次标准化 speculative decoding。GPT-OSS 分离性能与准确数据集,准确模式覆盖 AIME 2024(82.92%)、GPQA-Diamond(74.95%)、LiveCodeBench v6(84.68%);性能模式聚焦 PubMed 摘要生成。DeepSeek-R1 交互场景 TTFT ≤1.5s、TPOT ≤15ms,支持 EAGLE-style decoding。参考实现已在 GitHub 提供。(128字)

MLC MLPerf Inference GPT-OSS 120B
293