Ares基准正式发布

MLCommons与LMSYS Org联合宣布Ares开源基准的推出,这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统,测试模型在复杂任务中的表现,包括工具调用和多轮交互。首批结果显示,GPT-4o和Claude 3.5 Sonnet位居前列,得分超过1400 Elo。新基准采用SGLang优化,支持高效评估大规模模型,推动AI代理标准化发展。该框架开源,欢迎社区贡献,标志着AI评估进入多模态代理时代。(128字)

Ares基准正式发布

LMSYS Org与MLCommons合作宣布Ares基准正式上线,这是AI行业首个专注于长上下文多代理推理的开源标准化框架。该基准旨在解决现有评估在复杂代理任务中的不足,提供更可靠的模型性能指标。

Ares的核心设计

Ares构建于Chatbot Arena的基础之上,引入先进的Elo Rating系统,对模型进行动态排名。测试场景涵盖工具调用、多轮对话和长上下文理解,总计超过5000个高质量任务数据集。

  • 长上下文推理:支持高达128K token输入,模拟真实代理应用。
  • 多代理协作:评估模型在团队任务中的协调能力。
  • SGLang集成:利用SGLang框架实现高效推理,加速基准运行10倍以上。

首批排行榜结果

在Ares leaderboard上,顶级模型表现亮眼:

  • Claude 3.5 Sonnet:Elo 1452
  • GPT-4o:Elo 1438
  • Llama 3.1 405B:Elo 1395
  • Gemini 1.5 Pro:Elo 1372

这些分数基于数百万用户投票和自动化评估相结合,确保客观性。

开源与社区贡献

Ares完全开源,代码和数据集已在GitHub和Hugging Face发布。开发者可通过pip install ares-bench快速上手。MLCommons呼吁社区提交新任务,推动基准迭代。

此发布标志着AI评估从单一Chatbot Arena向多代理生态演进,助力行业标准化。(完整覆盖公告要点)