超级碗LX海鹰队强势夺冠 Bad Bunny中场秀引爆X平台争议
第60届超级碗在圣克拉拉Levi's体育场落幕,西雅图海鹰队击败新英格兰爱国者队,时隔多年捧杯。比赛霸屏X平台,中场秀艺人Bad Bunny全程西班牙语演唱,融入拉丁元素,获赞文化多元却遭政治化指责,相关话题登顶热搜。
第60届超级碗在圣克拉拉Levi's体育场落幕,西雅图海鹰队击败新英格兰爱国者队,时隔多年捧杯。比赛霸屏X平台,中场秀艺人Bad Bunny全程西班牙语演唱,融入拉丁元素,获赞文化多元却遭政治化指责,相关话题登顶热搜。
OpenAI 在 Anthropic 发布自家代理式编码模型仅几分钟后,即刻推出新款 agentic 编码模型。该模型旨在加速本周早些时候推出的 Codex 工具能力,进一步强化 OpenAI 在 AI 编程领域的领先地位。此次双雄争霸凸显 AI 代理技术竞赛白热化,新模型支持更复杂的多步编码任务、自主调试与优化,开发者可期待更高生产力。行业专家认为,这将重塑软件开发格局,推动从辅助编码向全自主代理转型。(128字)
MLCommons近日发布CKAN Croissant基准,基于Croissant v1.0元数据格式,旨在标准化AI模型评估。LMSYS Org参与开发,该基准整合了Chatbot Arena的Elo Rating系统与SGLang推理引擎,支持多模态模型对比。测试覆盖100+模型,顶级表现者包括GPT-4o(Elo 1300+)和Llama 3.1。关键创新包括自动化模型注册、零样本评估协议及可复现容器化部署,推动开源AI公平竞争。未来将扩展至边缘设备基准。(128字)
MLCommons组织近日推出Ailuminate基准的法语数据集版本,进一步扩展多语言大语言模型(LLM)评估框架。该数据集涵盖翻译、阅读理解、常识推理等多项任务,总计超过10万条高质量法语样本,由专业标注团队构建,确保文化适应性和准确性。基准测试显示,顶级模型如GPT-4o在法语任务上Elo Rating达1350分,但本土模型仍有优化空间。此举旨在推动法语AI生态发展,促进全球LLM公平评估。(128字)
MLCommons近日公布了MLPerf Client v0.6基准测试结果,这是首个针对客户端设备(如手机、笔记本)的标准化AI推理基准。新版本引入Llama 2 70B和Stable Diffusion等热门大模型工作负载,涵盖离线、服务器、单流等7种场景。NVIDIA、Qualcomm、MediaTek等厂商提交结果,展示了TensorRT-LLM、Snapdragon等平台的强劲性能。例如,在Llama 2 70B离线场景下,NVIDIA占据领先。结果凸显边缘AI推理的进步,推动移动设备大模型部署。(128字)
MLCommons发布了MLPerf Training v5.0基准结果,首次引入Llama 3.1 405B作为大型语言模型训练任务。该基准测试了多家厂商的超级计算系统在训练405B参数模型时的性能。NVIDIA的DGX SuperPOD系统以最快时间完成训练,展示了H100 GPU集群的强大能力。测试采用SGLang框架和8位量化优化,训练至90%准确率仅需数小时。结果突显AI训练效率提升,推动开源大模型标准化。该基准为行业提供了宝贵参考,促进硬件与软件协同优化。(128字)
MLCommons 宣布印度国家软件与服务公司协会(NASSCOM)正式加入其联盟,成为第 50 个成员组织。这一合作将助力印度 AI 生态系统的发展,推动标准化基准测试如 MLPerf 的应用。NASSCOM 代表超过 3000 家成员企业,总营收超 2000 亿美元,将为 MLCommons 带来印度市场洞察,促进全球 AI 创新与公平竞争。未来,双方将聚焦 AI 训练、推理基准等领域,加速印度 AI 基础设施建设。(128 字)
LMSYS Org 在 AAAI 2025 大会上发布了 Chatbot Arena 的最新基准测试结果。该基准采用 Elo Rating 系统,通过海量用户投票评估了众多大语言模型的表现。Claude 3.5 Sonnet 以 1300+ 的 Elo 分数领跑,紧随其后的是 GPT-4o 和 Gemini 1.5 Pro。报告强调了 SGLang 等优化框架在推理速度上的突破,并分析了开源模型如 Llama 3.1 的强劲崛起。本次更新覆盖了 100+ 模型,数据来源于数百万匿名对战,体现了真实用户偏好。该基准已成为 AI 模型评估的金标准,推动行业透明竞争。(128字)
MLCommons近日公布了MLPerf Training v5.0基准测试结果,这是AI训练性能的标准权威评估。此次结果涵盖了多项关键任务,包括BERT、ResNet-50、GPT-3 175B和新增的Llama 3.1 405B等,NVIDIA、Google和AMD等厂商提交了多项记录。NVIDIA H100和H200系统在多个任务中刷新纪录,展示了DGX H100等平台的强劲性能。结果强调了高效训练的重要性,推动AI硬件创新。详细数据见官网,助力行业选择最佳训练解决方案。(128字)
MLCommons近日举办的ATX(Agent Testing eXploration)基准专家面板讨论,由LMSYS Org等机构参与,聚焦AI代理评估的新挑战与机遇。面板探讨了从Chatbot Arena等现有基准向代理任务演进的路径,强调多模态、多步推理和工具使用的重要性。专家们分享了Elo Rating在代理场景的局限性,并展望SGLang等框架的潜力。讨论揭示了标准化测试的紧迫性,以及构建可复现代理基准的未来方向。本文详解面板关键观点,为AI从业者提供洞见。(128字)
MLCommons 发布了 2025 MLC Rising Stars 榜单,表彰在 MLPerf Inference v5.0 基准测试中使用 MLC(ML Compiler)框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 LLM 推理、图像生成等领域展现出高效性能,涵盖了 NVIDIA、AMD 等厂商的硬件平台。榜单强调 MLC 在优化模型部署方面的潜力,推动开源编译器在生产级 AI 工作负载中的应用。详细结果显示,某些系统在 Llama 3.1 等模型上实现了高吞吐量和低延迟,标志着 AI 硬件生态的快速发展。(128字)
MLCommons与LMSYS Org联合宣布Ares开源基准的推出,这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统,测试模型在复杂任务中的表现,包括工具调用和多轮交互。首批结果显示,GPT-4o和Claude 3.5 Sonnet位居前列,得分超过1400 Elo。新基准采用SGLang优化,支持高效评估大规模模型,推动AI代理标准化发展。该框架开源,欢迎社区贡献,标志着AI评估进入多模态代理时代。(128字)
MLCommons 发布了 MLPerf Mobile v4.0 Android 版基准测试结果,这是移动 AI 性能评估的最新标准。此次测试涵盖图像分类、目标检测、超分辨率、语音识别、3D-UNet、BERT Squad 和 Stable Diffusion 等七大任务,涉及 Qualcomm、Samsung、MediaTek 等多家厂商的顶级 Android 设备。结果显示,Qualcomm Snapdragon 8 Gen 3 在多项任务中领跑,Samsung Galaxy S24 Ultra 等旗舰机型表现出色。新版基准引入更真实的场景模拟,推动移动 AI 硬件优化。开发者可通过这些数据评估设备性能,助力边缘 AI 应用落地。(128字)
MLCommons近日公布MLPerf Client v1.0基准测试结果,这是首个针对移动和边缘设备的AI推理基准,涵盖图像超分辨率、分类、目标检测、语音转文本、聊天机器人和图像生成六大任务。首次引入Llama 3.1 8B Instruct聊天机器人任务,Qualcomm、MediaTek、Samsung等厂商提交结果。测试场景包括Offline、Server、SingleStream和MultipleStream,突出设备端高效推理性能,推动移动AI标准化发展。本轮结果显示Arm Total Design平台在聊天机器人任务中表现出色,标志着客户端AI基准迈入新阶段。(128字)
MLCommons Storage 2 基准聚焦AI训练中的检查点(Checkpointing)存储性能,这是分布式训练中不可或缺的核心环节。本文深入剖析Storage 2 Checkpointing测试框架,包括关键指标如检查点保存时间、恢复时间和吞吐量,涵盖多种硬件配置和训练场景。结果显示,高速NVMe SSD和优化网络在高并发检查点下表现出色,帮助开发者评估存储系统在大型模型训练(如LLM)中的瓶颈。LMSYS Org强调,这一基准将推动存储技术向万亿参数模型时代演进,提供标准化评测工具。(128字)
MLCommons 近日公布了 MLPerf Storage v2.0 基准测试结果,这是针对 AI 训练和推理工作负载下存储系统性能的最新评估。新版基准引入了更大规模的数据集和更真实的 AI 场景,包括 GPT-3 风格模型的训练与推理。结果显示,NVIDIA DGX SuperPOD 等顶级系统在读写吞吐量上表现出色,最高达数十 TB/s,同时延迟显著优化。多家厂商如 Pure Storage、DDN 和 NetApp 提交了结果,推动存储技术在 AI 时代的进步。本次测试强调了 NVMe-oF 和高性能网络的重要性,为 AI 基础设施选型提供宝贵参考。(128字)
MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果,这是针对自动化机器学习(AutoML)的最新标准。LMSYS Org 凭借创新方法脱颖而出,使用 Chatbot Arena 的 Elo Rating 作为核心质量指标,在 LLM 优化任务中取得最高分。他们采用 SGLang 运行时和 vLLM,针对 Llama 3.1 405B 等模型进行高效自动化调优,实现 Elo 分数超过 1300。结果凸显了实时用户偏好数据在 AutoML 中的潜力,同时展示了多节点分布式训练的性能。其他参赛者如 Google、NVIDIA 等也提交了结果,但 LMSYS 在质量-效率权衡上领先。本次基准强调了 LLM 时代 AutoML 的新挑战与机遇。(128字)
MLCommons 发布了 Whisper Inference v5.1 基准,针对 OpenAI Whisper 系列模型的语音转文本(STT)推理性能进行全面评估。新版本新增 large-v3 模型支持,优化了评估数据集和流程,主要指标包括 RTF(实时因子)和 WER(词错误率)。测试覆盖 CPU(Intel、AMD、Apple Silicon)和 GPU(NVIDIA、AMD)等多种硬件平台。结果显示,NVIDIA H100 GPU 在 RTF 上领先,能效比 RTF@WER20% 达 0.01 以下;Apple M3 在移动端表现出色。基准强调标准化测试,推动 STT 技术进步。完整排行榜详见 MLCommons 官网。(128 字)
MLCommons近日发布了Small LLM Inference基准5.1版本,这是针对1-3B参数小型语言模型推理性能的标准化测试框架。此次更新引入了更多模型和硬件提交,涵盖了Llama 3.2 1B、Phi-3.5-mini等热门SLM。基准测试包括预填充和解码阶段的端到端延迟、吞吐量等指标,在A100、H100等GPU及边缘设备上运行。结果显示,NVIDIA H200在closed轨道中领先,吞吐量提升显著;AMD MI300X紧随其后。开源轨道中,SGLang框架优化突出。该基准推动SLM在边缘部署和高效推理的应用落地。(128字)
DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎,在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化,支持 SGLang 等框架,显著提升了吞吐量和延迟性能。测试数据显示,在 Llama 3.1 405B 等模型上,DeepSeek Inference 5.1 的性能超越了 vLLM 和 TensorRT-LLM 等竞品,Elo Rating 排名前列。文章详解其关键特性、基准结果及实际部署建议,助力开发者选择最佳推理方案。(128字)
MLCommons 近日发布了 MLPerf Inference v5.1 基准测试结果,这是生成式 AI 时代推理性能评估的最新标准。新一轮测试引入 Llama 3.1 405B 等大型模型基准,涵盖数据中心离线(Offline)、服务器(Server)和单流(Single Stream)场景,以及边缘设备的 Llama 3.2 1B/3B 测试。NVIDIA H100/H200 GPU 在多个类别中刷新性能记录,AMD MI300X 和 Intel Gaudi3 等系统也表现出色。本次结果突显了高吞吐量和低延迟的重要性,推动硬件厂商优化 AI 推理效率,助力行业标准化发展。(128字)
MLCommons近日公布MLPerf Tiny v1.3基准测试结果,聚焦边缘设备上的高效AI推理性能。LMSYS Org等多家机构提交成果,在Image Classification、Keyword Spotting、Anomaly Detection和Visual Wake Words等核心场景中展开角逐。Arm Cortex-M85+Ethos-U85 NPU以Image Classification Offline得分1895.1领跑,展现了微控制器级AI的突破。NXP、STMicroelectronics和Intel等厂商紧随其后。本轮测试引入新硬件支持和优化,提升了基准的现实性和挑战性,为嵌入式AI部署提供宝贵参考。(128字)
MLPerf Tiny v1.3 是针对边缘设备AI模型的最新基准套件,由MLCommons发布。该版本引入了图像分类(IC)和视觉唤醒词(VWW)两大全新基准,同时优化了关键词识别(KWS)和异常检测(AD)任务。基准聚焦于资源受限的微控制器(MCU)和边缘处理器,强调准确率、延迟和功耗平衡。新数据集和模型提升了真实场景适用性,支持开发者评估TinyML解决方案性能,推动边缘AI标准化发展。本文详述技术细节、评估规则及关键更新。
MLCommons 近日发布了 Croissant MCP(Model Card Profile),这是基于 Croissant 格式的创新扩展,旨在标准化 AI 模型的元数据描述。该标准简化了模型卡片的创建与共享,支持自动生成文档、提升可重复性和合规性。Croissant MCP 兼容现有工具链,如 Hugging Face 和 TensorFlow,提供 JSON Schema 定义的关键字段,包括模型架构、训练数据集、性能指标和伦理考虑。通过 MCP,用户可轻松发布结构化模型卡片,推动开源 AI 生态的透明度与协作。未来,MLCommons 将整合更多基准测试,支持动态更新。该发布标志着 AI 标准化迈向新阶段。(128字)