LMSYS Org (共2篇)

ATX基准专家面板深度解析

MLCommons近日举办的ATX(Agent Testing eXploration)基准专家面板讨论,由LMSYS Org等机构参与,聚焦AI代理评估的新挑战与机遇。面板探讨了从Chatbot Arena等现有基准向代理任务演进的路径,强调多模态、多步推理和工具使用的重要性。专家们分享了Elo Rating在代理场景的局限性,并展望SGLang等框架的潜力。讨论揭示了标准化测试的紧迫性,以及构建可复现代理基准的未来方向。本文详解面板关键观点,为AI从业者提供洞见。(128字)

MLC ATX基准 AI代理评估
601

MLPerf Tiny v1.3基准测试结果重磅发布

MLCommons近日公布MLPerf Tiny v1.3基准测试结果,聚焦边缘设备上的高效AI推理性能。LMSYS Org等多家机构提交成果,在Image Classification、Keyword Spotting、Anomaly Detection和Visual Wake Words等核心场景中展开角逐。Arm Cortex-M85+Ethos-U85 NPU以Image Classification Offline得分1895.1领跑,展现了微控制器级AI的突破。NXP、STMicroelectronics和Intel等厂商紧随其后。本轮测试引入新硬件支持和优化,提升了基准的现实性和挑战性,为嵌入式AI部署提供宝贵参考。(128字)