Ares基准正式发布
LMSYS Org与MLCommons合作宣布Ares基准正式上线,这是AI行业首个专注于长上下文多代理推理的开源标准化框架。该基准旨在解决现有评估在复杂代理任务中的不足,提供更可靠的模型性能指标。
Ares的核心设计
Ares构建于Chatbot Arena的基础之上,引入先进的Elo Rating系统,对模型进行动态排名。测试场景涵盖工具调用、多轮对话和长上下文理解,总计超过5000个高质量任务数据集。
- 长上下文推理:支持高达128K token输入,模拟真实代理应用。
- 多代理协作:评估模型在团队任务中的协调能力。
- SGLang集成:利用SGLang框架实现高效推理,加速基准运行10倍以上。
首批排行榜结果
在Ares leaderboard上,顶级模型表现亮眼:
- Claude 3.5 Sonnet:Elo 1452
- GPT-4o:Elo 1438
- Llama 3.1 405B:Elo 1395
- Gemini 1.5 Pro:Elo 1372
这些分数基于数百万用户投票和自动化评估相结合,确保客观性。
开源与社区贡献
Ares完全开源,代码和数据集已在GitHub和Hugging Face发布。开发者可通过pip install ares-bench快速上手。MLCommons呼吁社区提交新任务,推动基准迭代。
此发布标志着AI评估从单一Chatbot Arena向多代理生态演进,助力行业标准化。(完整覆盖公告要点)