无法作弊的AI排行榜,竟由排名公司资助
人工智能模型层出不穷,竞争白热化,谁是真正的最强?Arena(前身为LM Arena)已成为前沿大语言模型(LLM)的公认公共排行榜,在短短七个月内从加州大学伯克利分校博士研究项目崛起,深刻影响融资、产品发布和公关周期。该榜单以‘无法作弊’著称,通过盲测用户投票机制,确保公平性。如今,它甚至获得被其排名的公司资助,引发行业热议。这不仅重塑AI评估标准,也暴露了排行榜背后的权力博弈。
精选TechCrunch、MIT科技评论、WIRED等全球顶尖科技媒体AI报道中文,如转载中文请标注本站出处。
人工智能模型层出不穷,竞争白热化,谁是真正的最强?Arena(前身为LM Arena)已成为前沿大语言模型(LLM)的公认公共排行榜,在短短七个月内从加州大学伯克利分校博士研究项目崛起,深刻影响融资、产品发布和公关周期。该榜单以‘无法作弊’著称,通过盲测用户投票机制,确保公平性。如今,它甚至获得被其排名的公司资助,引发行业热议。这不仅重塑AI评估标准,也暴露了排行榜背后的权力博弈。
SGLang 宣布 Day-0 支持 NVIDIA Nemotron 3 Super,这是 Nemotron 3 系列领先的开源模型,专为多代理协作设计。Nemotron 3 Super 采用 120B 参数混合 MoE 架构,每前向传播仅激活 12B 参数,在编码、工具调用和指令遵循上表现出色,支持 1M 上下文长度。Artificial Analysis 图表显示其在智能与开放性上领先同类模型。文章详解安装 SGLang 并部署模型,支持多代理推理工作负载,如规划、推理和工具链。提供 Hugging Face 下载链接、SGLang Cookbook 和技术报告,助力开发者构建可扩展、高效的多代理 AI 系统。
SGLang团队与NVIDIA紧密合作,在多代GPU上为大规模MoE推理模型部署带来阶跃式性能提升。继Blackwell B200对比Hopper H200实现4倍加速后,现扩展至Blackwell Ultra的GB300 NVL72,在InferenceXv2基准上较H200提升高达25倍。同时,GB200 NVL72性能在4个月内提升8倍。这些成果源于软硬件协同优化,显著降低延迟、提升吞吐量并减少每token成本。未来将进一步支持MTP、多模型调优及Vera Rubin系统,推动前沿推理模型部署成本降低。(128字)
Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展,采用prefill–decode disaggregation (PD)、chunked pipeline parallelism (PP)、wide expert parallelism (Wide-EP)、multi-token prediction (MTP)等技术。在长上下文负载下,SGLang在GB300 NVL72上实现最高226 TPS/GPU(较GB200提升1.53X),MTP进一步提升用户吞吐量1.87X。与GB200同等延迟条件下,GB300 TPS/GPU提升1.4X–1.6X。亮点包括EP解码扩展、PP预填充优化及更快注意力内核。复现指南见GitHub issue:18703。(128字)
继两月进展更新后,SGLang-Diffusion团队深入剖析了多项高级优化,使其成为可靠的生产级视频生成框架。这些优化聚焦可扩展性、效率与稳定性,针对扩散模型大规模部署的关键瓶颈。核心改进包括:从帧级到Token级SP-Sharding减少填充开销;Parallel Folding解耦文本编码器与DiT并行策略;分布式VAE并行编码/解码消除高分辨率内存瓶颈;修复Cache-DiT多请求稳定性问题;优化视频保存去除序列化开销;融合CuTeDSL JIT内核提升LayerNorm效率。性能测试显示,在Wan2.2 T2V任务中显著超越LightX2V。未来将继续推进2026Q1路线图。(128字)
阿里云Qwen团队与AMD AI框架团队携手,在AMD Instinct™ MI300X系列GPU上基于SGLang框架,对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线,TTFT提升1.67×,TPOT提升2.12×;Qwen3-VL-235B TTFT提升1.62×,TPOT提升1.90×。优化聚焦PTPC FP8量化、TP8并行策略、Attention KV-Cache布局优化、MoE负载均衡及内核融合等多维度,所有工作开源于GitHub。MI300X凭借192GB HBM3内存和5.3TB/s带宽,成为大模型推理理想平台。本文详解这些技术突破,推动交互式AI应用的低延迟部署。(128字)
MLCommons近日发布CKAN Croissant基准,基于Croissant v1.0元数据格式,旨在标准化AI模型评估。LMSYS Org参与开发,该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引擎,支持多模态模型对比。测试覆盖100+模型,顶级表现者包括GPT-4o(Elo 1300+)和Llama 3.1。关键创新包括自动化模型注册、零样本评估协议及可复现容器化部署,推动开源AI公平竞争。未来将扩展至边缘设备基准。(128字)
MLCommons与LMSYS Org联合宣布Ares开源基准的推出,这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统,测试模型在复杂任务中的表现,包括工具调用和多轮交互。首批结果显示,GPT-4o和Claude 3.5 Sonnet位居前列,得分超过1400 Elo。新基准采用SGLang优化,支持高效评估大规模模型,推动AI代理标准化发展。该框架开源,欢迎社区贡献,标志着AI评估进入多模态代理时代。(128字)
MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果,这是针对自动化机器学习(AutoML)的最新标准。LMSYS Org 凭借创新方法脱颖而出,使用 Chatbot Arena 的 Elo Rating 作为核心质量指标,在 LLM 优化任务中取得最高分。他们采用 SGLang 运行时和 vLLM,针对 Llama 3.1 405B 等模型进行高效自动化调优,实现 Elo 分数超过 1300。结果凸显了实时用户偏好数据在 AutoML 中的潜力,同时展示了多节点分布式训练的性能。其他参赛者如 Google、NVIDIA 等也提交了结果,但 LMSYS 在质量-效率权衡上领先。本次基准强调了 LLM 时代 AutoML 的新挑战与机遇。(128字)
MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉!本次更新引入了更先进的越狱攻击策略,覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 Sonnet和Llama 3.1 405B在<strong>jailbreak resistance Elo rating</strong>上展开激烈角逐。Claude 3.5 Sonnet以1485分领跑,GPT-4o紧随其后达1472分,而开源模型Gemini 1.5 Pro仅1038分。本版强调多轮对话和SGLang加速推理,揭示了当前LLM安全脆弱性。详细排行和攻击方法剖析,帮助开发者提升模型鲁棒性。(128字)
MLCommons与LMSYS Org合作推出ISO-AUS基准测试,这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制,涵盖从边缘设备到云端服务器的多种场景。测试结果显示,领先模型如GPT-4o在Elo Rating上领先,但开源模型Llama 3.1在SGLang框架下表现出色,资源效率提升30%。该基准强调实际部署中的安全性与可扩展性,为AI行业提供可靠的性能评估标准。未来将定期更新,支持更多硬件平台。(128字)