AAAI 2025：LMSYS Org 发布Chatbot Arena最新基准

2026年02月10日 21 约2分钟 MLC

MLC AAAI 2025 Chatbot Arena Elo Rating SGLang AI基准

LMSYS Org 作为 AI 社区的重要力量，在 AAAI 2025 大会上重磅发布了 Chatbot Arena 的最新基准测试结果。这一更新不仅刷新了全球 AI 聊天机器人排行榜，还为开发者提供了宝贵的模型优化洞见。

Chatbot Arena 基准概述

Chatbot Arena 是 LMSYS 推出的开创性平台，通过匿名用户对战投票生成 Elo Rating 分数。该系统模拟真实场景，让用户盲评不同模型的回答，最终形成权威排行。截至本次更新，已累积超过 300 万次投票，覆盖 100 多个模型。

报告特别介绍了 SGLang，一种高效的推理框架，能将模型吞吐量提升 2-5 倍。通过 RadixAttention 和零开销批处理，SGLang 显著降低了延迟，支持实时多轮对话。LMSYS 团队展示了其在 Arena 中的应用，帮助模型在高负载下保持高 Elo 分数。

模型	Elo Rating	胜率（%）	类别优势
Claude 3.5 Sonnet	1308	58.2	推理/编码
GPT-4o	1302	57.5	多模态
Llama 3.1 405B	1285	55.1	开源/成本

本次 AAAI 2025 更新凸显了用户驱动评估的重要性，避免了传统基准的偏差。LMSYS Org 呼吁更多模型加入 Arena，推动开源生态发展。未来，他们计划集成更多中文和多语言测试，助力全球 AI 公平竞争。

更多详情请访问原文链接。