AAAI 2025：LMSYS Org 发布Chatbot Arena最新基准

Feb 10, 2026 3,200 Views - Read Source MLC

MLC AAAI 2025 Chatbot Arena Elo Rating SGLang AI基准

LMSYS Org 作为 AI 社区的重要力量，在 AAAI 2025 大会上重磅发布了 Chatbot Arena 的最新基准测试结果。这一更新不仅刷新了全球 AI 聊天机器人排行榜，还为开发者提供了宝贵的模型优化洞见。

Chatbot Arena 基准概述

Chatbot Arena 是 LMSYS 推出的开创性平台，通过匿名用户对战投票生成 Elo Rating 分数。该系统模拟真实场景，让用户盲评不同模型的回答，最终形成权威排行。截至本次更新，已累积超过 300 万次投票，覆盖 100 多个模型。

报告特别介绍了 SGLang，一种高效的推理框架，能将模型吞吐量提升 2-5 倍。通过 RadixAttention 和零开销批处理，SGLang 显著降低了延迟，支持实时多轮对话。LMSYS 团队展示了其在 Arena 中的应用，帮助模型在高负载下保持高 Elo 分数。

模型	Elo Rating	胜率（%）	类别优势
Claude 3.5 Sonnet	1308	58.2	推理/编码
GPT-4o	1302	57.5	多模态
Llama 3.1 405B	1285	55.1	开源/成本

本次 AAAI 2025 更新凸显了用户驱动评估的重要性，避免了传统基准的偏差。LMSYS Org 呼吁更多模型加入 Arena，推动开源生态发展。未来，他们计划集成更多中文和多语言测试，助力全球 AI 公平竞争。

更多详情请访问原文链接。