ISO-AUS:MLCommons发布新一代AI推理基准

MLCommons近日与LMSYS Org联合发布了ISO-AUS基准测试,这是一项创新的AI模型评估框架,专为隔离推理场景设计。

ISO-AUS基准概述

ISO-AUS(Isolation-Aware Serving Optimization)旨在模拟真实生产环境下的AI推理需求,强调模型间的隔离性、资源分配公平性和低延迟响应。与传统的Chatbot Arena不同,ISO-AUS引入了多租户负载测试,评估模型在共享资源下的表现。

关键测试指标

  • Elo Rating:基于用户盲测的排名系统,GPT-4o以1420分领跑。
  • Throughput:每秒查询数,SGLang优化后提升25%。
  • Isolation Score:防止侧信道攻击的隔离效率,开源模型平均得分85%。
  • Resource Utilization:内存/CPU利用率控制在90%以内。

测试结果亮点

在标准数据集上,Claude 3.5 Sonnet在复杂查询中胜出,但Llama 3.1-405B在SGLang下实现了最佳性价比,延迟降低40%。图表显示:

ISO-AUS排行榜

该基准兼容NVIDIA H100和AMD MI300X硬件,支持边缘部署。

行业影响

ISO-AUS填补了AI基准在安全隔离领域的空白,推动模型从实验室向生产的平稳过渡。LMSYS Org表示,将整合到Chatbot Arena中,提供实时Elo更新。

更多详情见官方链接

本文来自 MLC 博客,赢政天下(winzheng.com)进行了全文翻译。 点击这里查看原文 如果转载中文,请注明出处,谢谢支持!