Ares基准正式发布
MLCommons与LMSYS Org联合宣布Ares开源基准的推出,这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统,测试模型在复杂任务中的表现,包括工具调用和多轮交互。首批结果显示,GPT-4o和Claude 3.5 Sonnet位居前列,得分超过1400 Elo。新基准采用SGLang优化,支持高效评估大规模模型,推动AI代理标准化发展。该框架开源,欢迎社区贡献,标志着AI评估进入多模态代理时代。(128字)