AAAI 2025:LMSYS Org 发布Chatbot Arena最新基准

LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统,通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+ 的 Elo 分数领跑,紧随其后的是 GPT-4o 和 Gemini 1.5 Pro。报告强调了 SGLang 等优化框架在推理速度上的突破,并分析了开源模型如 Llama 3.1 的强劲崛起。本次更新覆盖了 100+ 模型,数据来源于数百万匿名对战,体现了真实用户偏好。该基准已成为 AI 模型评估的金标准,推动行业透明竞争。(128字)

LMSYS Org 作为 AI 社区的重要力量,在 AAAI 2025 大会上重磅发布了 Chatbot Arena 的最新基准测试结果。这一更新不仅刷新了全球 AI 聊天机器人排行榜,还为开发者提供了宝贵的模型优化洞见。

Chatbot Arena 基准概述

Chatbot Arena 是 LMSYS 推出的开创性平台,通过匿名用户对战投票生成 Elo Rating 分数。该系统模拟真实场景,让用户盲评不同模型的回答,最终形成权威排行。截至本次更新,已累积超过 300 万次投票,覆盖 100 多个模型。

顶级模型表现

  • Claude 3.5 Sonnet:Elo 1308,连续数月霸榜,特别是在复杂推理和创意任务中表现出色。
  • GPT-4o:Elo 1302,平衡性极佳,多模态能力领先。
  • Gemini 1.5 Pro:Elo 1290,长上下文处理能力突出。
  • 开源亮点:Llama 3.1 405B Elo 1285,性价比高,缩小与闭源模型差距。

SGLang 等技术创新

报告特别介绍了 SGLang,一种高效的推理框架,能将模型吞吐量提升 2-5 倍。通过 RadixAttention 和零开销批处理,SGLang 显著降低了延迟,支持实时多轮对话。LMSYS 团队展示了其在 Arena 中的应用,帮助模型在高负载下保持高 Elo 分数。

关键数据对比

模型Elo Rating胜率(%)类别优势
Claude 3.5 Sonnet130858.2推理/编码
GPT-4o130257.5多模态
Llama 3.1 405B128555.1开源/成本

行业影响与展望

本次 AAAI 2025 更新凸显了用户驱动评估的重要性,避免了传统基准的偏差。LMSYS Org 呼吁更多模型加入 Arena,推动开源生态发展。未来,他们计划集成更多中文和多语言测试,助力全球 AI 公平竞争。

更多详情请访问 原文链接