ISO-AUS:MLCommons发布新一代AI推理基准

MLCommons与LMSYS Org合作推出ISO-AUS基准测试,这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制,涵盖从边缘设备到云端服务器的多种场景。测试结果显示,领先模型如GPT-4o在Elo Rating上领先,但开源模型Llama 3.1在SGLang框架下表现出色,资源效率提升30%。该基准强调实际部署中的安全性与可扩展性,为AI行业提供可靠的性能评估标准。未来将定期更新,支持更多硬件平台。(128字)

MLCommons近日与LMSYS Org联合发布了ISO-AUS基准测试,这是一项创新的AI模型评估框架,专为隔离推理场景设计。

ISO-AUS基准概述

ISO-AUS(Isolation-Aware Serving Optimization)旨在模拟真实生产环境下的AI推理需求,强调模型间的隔离性、资源分配公平性和低延迟响应。与传统的Chatbot Arena不同,ISO-AUS引入了多租户负载测试,评估模型在共享资源下的表现。

关键测试指标

  • Elo Rating:基于用户盲测的排名系统,GPT-4o以1420分领跑。
  • Throughput:每秒查询数,SGLang优化后提升25%。
  • Isolation Score:防止侧信道攻击的隔离效率,开源模型平均得分85%。
  • Resource Utilization:内存/CPU利用率控制在90%以内。

测试结果亮点

在标准数据集上,Claude 3.5 Sonnet在复杂查询中胜出,但Llama 3.1-405B在SGLang下实现了最佳性价比,延迟降低40%。图表显示:

ISO-AUS排行榜

该基准兼容NVIDIA H100和AMD MI300X硬件,支持边缘部署。

行业影响

ISO-AUS填补了AI基准在安全隔离领域的空白,推动模型从实验室向生产的平稳过渡。LMSYS Org表示,将整合到Chatbot Arena中,提供实时Elo更新。

更多详情见官方链接