ISO-AUS:MLCommons发布新一代AI推理基准

MLCommons近日与LMSYS Org联合发布了ISO-AUS基准测试,这是一项创新的AI模型评估框架,专为隔离推理场景设计。

ISO-AUS基准概述

ISO-AUS(Isolation-Aware Serving Optimization)旨在模拟真实生产环境下的AI推理需求,强调模型间的隔离性、资源分配公平性和低延迟响应。与传统的Chatbot Arena不同,ISO-AUS引入了多租户负载测试,评估模型在共享资源下的表现。

关键测试指标

  • Elo Rating:基于用户盲测的排名系统,GPT-4o以1420分领跑。
  • Throughput:每秒查询数,SGLang优化后提升25%。
  • Isolation Score:防止侧信道攻击的隔离效率,开源模型平均得分85%。
  • Resource Utilization:内存/CPU利用率控制在90%以内。

测试结果亮点

在标准数据集上,Claude 3.5 Sonnet在复杂查询中胜出,但Llama 3.1-405B在SGLang下实现了最佳性价比,延迟降低40%。图表显示:

ISO-AUS排行榜

该基准兼容NVIDIA H100和AMD MI300X硬件,支持边缘部署。

行业影响

ISO-AUS填补了AI基准在安全隔离领域的空白,推动模型从实验室向生产的平稳过渡。LMSYS Org表示,将整合到Chatbot Arena中,提供实时Elo更新。

更多详情见官方链接

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!