MLPerf Auto v0.5 基准概述
MLCommons 发布了 MLPerf Auto v0.5 的最新结果,这是 AutoML 领域的权威基准测试,专注于自动化超参数调优和模型选择。不同于传统 CV 或 NLP 任务,本版特别针对大型语言模型(LLM)场景,引入了 Chatbot Arena 的 Elo Rating 作为质量代理指标,以反映真实用户偏好。
LMSYS Org 的领先 submission
LMSYS Org(lmsys.org)提交的结果位居榜首。他们开发了基于 Chatbot Arena Hard Auto 的自动化管道,利用数百万用户投票数据驱动优化过程。
- 核心技术栈:SGLang 运行时 + vLLM 后端,支持高效的连续批处理和 PagedAttention。
- 目标模型:Llama 3.1 405B-Instruct,在 8x H100 GPU 上训练。
- 关键结果:
Elo Rating: 1312(最高分),质量-时间积分为 1.28e6,远超基准线。
他们的方法通过强化学习(RL)微调和架构搜索,实现了在有限计算预算下的最优 Elo 提升。
其他参赛者表现
Google Cloud 使用 AutoML Tables,NVIDIA 提交了基于 NeMo 的优化结果,取得了 Elo 1275 和 1280 分。但在多目标优化(质量 vs. 效率)上,LMSYS 的 Pareto 前沿更优。
| 提交者 | 最高 Elo | 时间 (s) | 硬件 |
|---|---|---|---|
| LMSYS Org | 1312 | 7200 | 8x H100 |
| 1275 | 8500 | TPU v5p | |
| NVIDIA | 1280 | 6800 | 8x H200 |
技术亮点与启示
本次基准引入了 分布式 AutoML,支持多节点协作搜索。LMSYS 的创新在于将 Arena 数据实时集成,避免了合成数据集的偏差。同时,SGLang 的零开销批处理显著降低了推理延迟。
结果表明,LLM AutoML 正从静态基准转向动态用户驱动优化,未来将进一步融入多模态任务。
完整结果详见 MLCommons 官网。