Ares基准正式发布

2026年02月10日 12 约2分钟 MLC

MLC Ares基准 LMSYS MLCommons Chatbot Arena AI推理

Ares基准正式发布

LMSYS Org与MLCommons合作宣布Ares基准正式上线，这是AI行业首个专注于长上下文多代理推理的开源标准化框架。该基准旨在解决现有评估在复杂代理任务中的不足，提供更可靠的模型性能指标。

Ares的核心设计

Ares构建于Chatbot Arena的基础之上，引入先进的Elo Rating系统，对模型进行动态排名。测试场景涵盖工具调用、多轮对话和长上下文理解，总计超过5000个高质量任务数据集。

长上下文推理：支持高达128K token输入，模拟真实代理应用。
多代理协作：评估模型在团队任务中的协调能力。
SGLang集成：利用SGLang框架实现高效推理，加速基准运行10倍以上。

首批排行榜结果

在Ares leaderboard上，顶级模型表现亮眼：

Claude 3.5 Sonnet：Elo 1452
GPT-4o：Elo 1438
Llama 3.1 405B：Elo 1395
Gemini 1.5 Pro：Elo 1372

这些分数基于数百万用户投票和自动化评估相结合，确保客观性。

开源与社区贡献

Ares完全开源，代码和数据集已在GitHub和Hugging Face发布。开发者可通过pip install ares-bench快速上手。MLCommons呼吁社区提交新任务，推动基准迭代。

此发布标志着AI评估从单一Chatbot Arena向多代理生态演进，助力行业标准化。（完整覆盖公告要点）