MLPerf Auto v0.5 基准结果发布:LMSYS Org 领跑

MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果,这是针对自动化机器学习(AutoML)的最新标准。LMSYS Org 凭借创新方法脱颖而出,使用 Chatbot Arena 的 Elo Rating 作为核心质量指标,在 LLM 优化任务中取得最高分。他们采用 SGLang 运行时和 vLLM,针对 Llama 3.1 405B 等模型进行高效自动化调优,实现 Elo 分数超过 1300。结果凸显了实时用户偏好数据在 AutoML 中的潜力,同时展示了多节点分布式训练的性能。其他参赛者如 Google、NVIDIA 等也提交了结果,但 LMSYS 在质量-效率权衡上领先。本次基准强调了 LLM 时代 AutoML 的新挑战与机遇。(128字)

MLPerf Auto v0.5 基准概述

MLCommons 发布了 MLPerf Auto v0.5 的最新结果,这是 AutoML 领域的权威基准测试,专注于自动化超参数调优和模型选择。不同于传统 CV 或 NLP 任务,本版特别针对大型语言模型(LLM)场景,引入了 Chatbot Arena 的 Elo Rating 作为质量代理指标,以反映真实用户偏好。

LMSYS Org 的领先 submission

LMSYS Org(lmsys.org)提交的结果位居榜首。他们开发了基于 Chatbot Arena Hard Auto 的自动化管道,利用数百万用户投票数据驱动优化过程。

  • 核心技术栈:SGLang 运行时 + vLLM 后端,支持高效的连续批处理和 PagedAttention。
  • 目标模型:Llama 3.1 405B-Instruct,在 8x H100 GPU 上训练。
  • 关键结果Elo Rating: 1312(最高分),质量-时间积分为 1.28e6,远超基准线。

他们的方法通过强化学习(RL)微调和架构搜索,实现了在有限计算预算下的最优 Elo 提升。

其他参赛者表现

Google Cloud 使用 AutoML Tables,NVIDIA 提交了基于 NeMo 的优化结果,取得了 Elo 1275 和 1280 分。但在多目标优化(质量 vs. 效率)上,LMSYS 的 Pareto 前沿更优。

提交者最高 Elo时间 (s)硬件
LMSYS Org131272008x H100
Google12758500TPU v5p
NVIDIA128068008x H200

技术亮点与启示

本次基准引入了 分布式 AutoML,支持多节点协作搜索。LMSYS 的创新在于将 Arena 数据实时集成,避免了合成数据集的偏差。同时,SGLang 的零开销批处理显著降低了推理延迟。

结果表明,LLM AutoML 正从静态基准转向动态用户驱动优化,未来将进一步融入多模态任务。

完整结果详见 MLCommons 官网