MLCommons近日与LMSYS Org联合发布了ISO-AUS基准测试,这是一项创新的AI模型评估框架,专为隔离推理场景设计。
ISO-AUS基准概述
ISO-AUS(Isolation-Aware Serving Optimization)旨在模拟真实生产环境下的AI推理需求,强调模型间的隔离性、资源分配公平性和低延迟响应。与传统的Chatbot Arena不同,ISO-AUS引入了多租户负载测试,评估模型在共享资源下的表现。
关键测试指标
- Elo Rating:基于用户盲测的排名系统,GPT-4o以1420分领跑。
- Throughput:每秒查询数,SGLang优化后提升25%。
- Isolation Score:防止侧信道攻击的隔离效率,开源模型平均得分85%。
- Resource Utilization:内存/CPU利用率控制在90%以内。
测试结果亮点
在标准数据集上,Claude 3.5 Sonnet在复杂查询中胜出,但Llama 3.1-405B在SGLang下实现了最佳性价比,延迟降低40%。图表显示:

该基准兼容NVIDIA H100和AMD MI300X硬件,支持边缘部署。
行业影响
ISO-AUS填补了AI基准在安全隔离领域的空白,推动模型从实验室向生产的平稳过渡。LMSYS Org表示,将整合到Chatbot Arena中,提供实时Elo更新。
更多详情见官方链接。