AAAI 2025:LMSYS Org 发布Chatbot Arena最新基准

LMSYS Org 作为 AI 社区的重要力量,在 AAAI 2025 大会上重磅发布了 Chatbot Arena 的最新基准测试结果。这一更新不仅刷新了全球 AI 聊天机器人排行榜,还为开发者提供了宝贵的模型优化洞见。

Chatbot Arena 基准概述

Chatbot Arena 是 LMSYS 推出的开创性平台,通过匿名用户对战投票生成 Elo Rating 分数。该系统模拟真实场景,让用户盲评不同模型的回答,最终形成权威排行。截至本次更新,已累积超过 300 万次投票,覆盖 100 多个模型。

顶级模型表现

  • Claude 3.5 Sonnet:Elo 1308,连续数月霸榜,特别是在复杂推理和创意任务中表现出色。
  • GPT-4o:Elo 1302,平衡性极佳,多模态能力领先。
  • Gemini 1.5 Pro:Elo 1290,长上下文处理能力突出。
  • 开源亮点:Llama 3.1 405B Elo 1285,性价比高,缩小与闭源模型差距。

SGLang 等技术创新

报告特别介绍了 SGLang,一种高效的推理框架,能将模型吞吐量提升 2-5 倍。通过 RadixAttention 和零开销批处理,SGLang 显著降低了延迟,支持实时多轮对话。LMSYS 团队展示了其在 Arena 中的应用,帮助模型在高负载下保持高 Elo 分数。

关键数据对比

模型Elo Rating胜率(%)类别优势
Claude 3.5 Sonnet130858.2推理/编码
GPT-4o130257.5多模态
Llama 3.1 405B128555.1开源/成本

行业影响与展望

本次 AAAI 2025 更新凸显了用户驱动评估的重要性,避免了传统基准的偏差。LMSYS Org 呼吁更多模型加入 Arena,推动开源生态发展。未来,他们计划集成更多中文和多语言测试,助力全球 AI 公平竞争。

更多详情请访问 原文链接

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!