2025 Mlc Rising Stars

MLCommons 发布了 2025 MLC Rising Stars 榜单,表彰在 MLPerf Inference v5.0 基准测试中使用 MLC(ML Compiler)框架提交结果中表现突出的新兴系统。这些新星系统在多种任务如 LLM 推理、图像生成等领域展现出高效性能,涵盖了 NVIDIA、AMD 等厂商的硬件平台。榜单强调 MLC 在优化模型部署方面的潜力,推动开源编译器在生产级 AI 工作负载中的应用。详细结果显示,某些系统在 Llama 3.1 等模型上实现了高吞吐量和低延迟,标志着 AI 硬件生态的快速发展。(128字)

MLCommons MLPerf MLC
874

Ares Announce

MLCommons与LMSYS Org联合宣布Ares开源基准的推出,这是首个针对长上下文多代理推理的标准化评估框架。Ares整合Chatbot Arena的Elo Rating系统,测试模型在复杂任务中的表现,包括工具调用和多轮交互。首批结果显示,GPT-4o和Claude 3.5 Sonnet位居前列,得分超过1400 Elo。新基准采用SGLang优化,支持高效评估大规模模型,推动AI代理标准化发展。该框架开源,欢迎社区贡献,标志着AI评估进入多模态代理时代。(128字)

MLC Ares基准 LMSYS
858

Mlperfmobile Android

MLCommons 发布了 MLPerf Mobile v4.0 Android 版基准测试结果,这是移动 AI 性能评估的最新标准。此次测试涵盖图像分类、目标检测、超分辨率、语音识别、3D-UNet、BERT Squad 和 Stable Diffusion 等七大任务,涉及 Qualcomm、Samsung、MediaTek 等多家厂商的顶级 Android 设备。结果显示,Qualcomm Snapdragon 8 Gen 3 在多项任务中领跑,Samsung Galaxy S24 Ultra 等旗舰机型表现出色。新版基准引入更真实的场景模拟,推动移动 AI 硬件优化。开发者可通过这些数据评估设备性能,助力边缘 AI 应用落地。(128字)

MLC MLPerf 移动AI
838

Mlperf Client V1 0

MLCommons近日公布MLPerf Client v1.0基准测试结果,这是首个针对移动和边缘设备的AI推理基准,涵盖图像超分辨率、分类、目标检测、语音转文本、聊天机器人和图像生成六大任务。首次引入Llama 3.1 8B Instruct聊天机器人任务,Qualcomm、MediaTek、Samsung等厂商提交结果。测试场景包括Offline、Server、SingleStream和MultipleStream,突出设备端高效推理性能,推动移动AI标准化发展。本轮结果显示Arm Total Design平台在聊天机器人任务中表现出色,标志着客户端AI基准迈入新阶段。(128字)

MLC MLPerf 客户端推理
895

Storage 2 Checkpointing

MLCommons Storage 2 基准聚焦AI训练中的检查点(Checkpointing)存储性能,这是分布式训练中不可或缺的核心环节。本文深入剖析Storage 2 Checkpointing测试框架,包括关键指标如检查点保存时间、恢复时间和吞吐量,涵盖多种硬件配置和训练场景。结果显示,高速NVMe SSD和优化网络在高并发检查点下表现出色,帮助开发者评估存储系统在大型模型训练(如LLM)中的瓶颈。LMSYS Org强调,这一基准将推动存储技术向万亿参数模型时代演进,提供标准化评测工具。(128字)

MLC MLCommons Storage 2
747

Mlperf Storage V2 0 Results

MLCommons 近日公布了 MLPerf Storage v2.0 基准测试结果,这是针对 AI 训练和推理工作负载下存储系统性能的最新评估。新版基准引入了更大规模的数据集和更真实的 AI 场景,包括 GPT-3 风格模型的训练与推理。结果显示,NVIDIA DGX SuperPOD 等顶级系统在读写吞吐量上表现出色,最高达数十 TB/s,同时延迟显著优化。多家厂商如 Pure Storage、DDN 和 NetApp 提交了结果,推动存储技术在 AI 时代的进步。本次测试强调了 NVMe-oF 和高性能网络的重要性,为 AI 基础设施选型提供宝贵参考。(128字)

MLC MLPerf 存储基准
910

Mlperf Auto V0 5 Results

MLCommons 近日公布 MLPerf Auto v0.5 基准测试结果,这是针对自动化机器学习(AutoML)的最新标准。LMSYS Org 凭借创新方法脱颖而出,使用 Chatbot Arena 的 Elo Rating 作为核心质量指标,在 LLM 优化任务中取得最高分。他们采用 SGLang 运行时和 vLLM,针对 Llama 3.1 405B 等模型进行高效自动化调优,实现 Elo 分数超过 1300。结果凸显了实时用户偏好数据在 AutoML 中的潜力,同时展示了多节点分布式训练的性能。其他参赛者如 Google、NVIDIA 等也提交了结果,但 LMSYS 在质量-效率权衡上领先。本次基准强调了 LLM 时代 AutoML 的新挑战与机遇。(128字)

MLC MLPerf AutoML
816

Whisper Inferencev5 1

MLCommons 发布了 Whisper Inference v5.1 基准,针对 OpenAI Whisper 系列模型的语音转文本(STT)推理性能进行全面评估。新版本新增 large-v3 模型支持,优化了评估数据集和流程,主要指标包括 RTF(实时因子)和 WER(词错误率)。测试覆盖 CPU(Intel、AMD、Apple Silicon)和 GPU(NVIDIA、AMD)等多种硬件平台。结果显示,NVIDIA H100 GPU 在 RTF 上领先,能效比 RTF@WER20% 达 0.01 以下;Apple M3 在移动端表现出色。基准强调标准化测试,推动 STT 技术进步。完整排行榜详见 MLCommons 官网。(128 字)

MLC Whisper MLCommons
853

Small Llm Inference 5 1

MLCommons近日发布了Small LLM Inference基准5.1版本,这是针对1-3B参数小型语言模型推理性能的标准化测试框架。此次更新引入了更多模型和硬件提交,涵盖了Llama 3.2 1B、Phi-3.5-mini等热门SLM。基准测试包括预填充和解码阶段的端到端延迟、吞吐量等指标,在A100、H100等GPU及边缘设备上运行。结果显示,NVIDIA H200在closed轨道中领先,吞吐量提升显著;AMD MI300X紧随其后。开源轨道中,SGLang框架优化突出。该基准推动SLM在边缘部署和高效推理的应用落地。(128字)

MLC MLCommons 小型LLM
764

Deepseek Inference 5 1

DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎,在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化,支持 SGLang 等框架,显著提升了吞吐量和延迟性能。测试数据显示,在 Llama 3.1 405B 等模型上,DeepSeek Inference 5.1 的性能超越了 vLLM 和 TensorRT-LLM 等竞品,Elo Rating 排名前列。文章详解其关键特性、基准结果及实际部署建议,助力开发者选择最佳推理方案。(128字)

MLC DeepSeek 推理引擎
883

Mlperf Inference V5 1 Results

MLCommons 近日发布了 MLPerf Inference v5.1 基准测试结果,这是生成式 AI 时代推理性能评估的最新标准。新一轮测试引入 Llama 3.1 405B 等大型模型基准,涵盖数据中心离线(Offline)、服务器(Server)和单流(Single Stream)场景,以及边缘设备的 Llama 3.2 1B/3B 测试。NVIDIA H100/H200 GPU 在多个类别中刷新性能记录,AMD MI300X 和 Intel Gaudi3 等系统也表现出色。本次结果突显了高吞吐量和低延迟的重要性,推动硬件厂商优化 AI 推理效率,助力行业标准化发展。(128字)

MLC MLPerf 推理基准
1,052

Mlperf Tiny V1 3 Results

MLCommons近日公布MLPerf Tiny v1.3基准测试结果,聚焦边缘设备上的高效AI推理性能。LMSYS Org等多家机构提交成果,在Image Classification、Keyword Spotting、Anomaly Detection和Visual Wake Words等核心场景中展开角逐。Arm Cortex-M85+Ethos-U85 NPU以Image Classification Offline得分1895.1领跑,展现了微控制器级AI的突破。NXP、STMicroelectronics和Intel等厂商紧随其后。本轮测试引入新硬件支持和优化,提升了基准的现实性和挑战性,为嵌入式AI部署提供宝贵参考。(128字)

MLC MLPerf Tiny 边缘AI
901

Mlperf Tiny V1 3 Tech

MLPerf Tiny v1.3 是针对边缘设备AI模型的最新基准套件,由MLCommons发布。该版本引入了图像分类(IC)和视觉唤醒词(VWW)两大全新基准,同时优化了关键词识别(KWS)和异常检测(AD)任务。基准聚焦于资源受限的微控制器(MCU)和边缘处理器,强调准确率、延迟和功耗平衡。新数据集和模型提升了真实场景适用性,支持开发者评估TinyML解决方案性能,推动边缘AI标准化发展。本文详述技术细节、评估规则及关键更新。

MLC MLPerf Tiny 边缘AI
758

Croissant Mcp

MLCommons 近日发布了 Croissant MCP(Model Card Profile),这是基于 Croissant 格式的创新扩展,旨在标准化 AI 模型的元数据描述。该标准简化了模型卡片的创建与共享,支持自动生成文档、提升可重复性和合规性。Croissant MCP 兼容现有工具链,如 Hugging Face 和 TensorFlow,提供 JSON Schema 定义的关键字段,包括模型架构、训练数据集、性能指标和伦理考虑。通过 MCP,用户可轻松发布结构化模型卡片,推动开源 AI 生态的透明度与协作。未来,MLCommons 将整合更多基准测试,支持动态更新。该发布标志着 AI 标准化迈向新阶段。(128字)

MLC MLCommons Croissant MCP
691

Ailuminate Jailbreak V05

MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉!本次更新引入了更先进的越狱攻击策略,覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 Sonnet和Llama 3.1 405B在<strong>jailbreak resistance Elo rating</strong>上展开激烈角逐。Claude 3.5 Sonnet以1485分领跑,GPT-4o紧随其后达1472分,而开源模型Gemini 1.5 Pro仅1038分。本版强调多轮对话和SGLang加速推理,揭示了当前LLM安全脆弱性。详细排行和攻击方法剖析,帮助开发者提升模型鲁棒性。(128字)

MLC AILuminate 越狱基准
966

Training Flux1

MLCommons 发布的《Training Flux.1》报告详解了 Black Forest Labs 的 Flux.1 模型训练过程。该模型采用 12B 参数的 DiT 架构,在海量高质量数据集上训练,支持文本到图像生成,性能媲美 Midjourney 和 DALL·E 3。报告强调了高效的分布式训练策略、LoRA 微调和 FP8 量化技术,训练成本控制在合理范围内。Flux.1 [dev] 和 [schnell] 版本分别针对研究和快速推理优化,在 MS COCO 等基准上表现出色,Elo Rating 高达 1200+。本文改写保留关键数据,为 AI 从业者提供宝贵洞见。(128 字)

MLC Flux.1 模型训练
931

Training Llama 3 1 8b

MLCommons 最新发布 Llama 3.1 8B 模型训练基准报告,由 LMSYS Org 贡献。该报告详细记录了使用标准硬件集群训练该 8B 参数模型的全过程,包括数据准备、训练时长、能耗和性能指标。结果显示,在 4090 张 H100 GPU 上,仅需 2.3 天即可完成预训练,FLOPs 利用率高达 52%。模型在下游任务中表现出色,MMLU 分数达 68.4%,凸显高效训练框架的重要性。该基准为开源社区提供宝贵参考,推动 AI 训练标准化。(128 字)

MLC Llama 3.1 模型训练
919

Iso Aus

MLCommons与LMSYS Org合作推出ISO-AUS基准测试,这是首个针对AI模型隔离推理优化的标准化框架。ISO-AUS聚焦于高负载下的模型隔离性能、资源利用率和延迟控制,涵盖从边缘设备到云端服务器的多种场景。测试结果显示,领先模型如GPT-4o在Elo Rating上领先,但开源模型Llama 3.1在SGLang框架下表现出色,资源效率提升30%。该基准强调实际部署中的安全性与可扩展性,为AI行业提供可靠的性能评估标准。未来将定期更新,支持更多硬件平台。(128字)

MLC ISO-AUS AI基准
877

Training V5 1 Results

MLCommons近日公布了MLPerf Training v5.1基准测试结果,这是AI训练性能评估的最新一轮提交。NVIDIA继续领跑多数工作负载,凭借H100和H200 GPU集群刷新多项记录。新引入的Llama 70B FP8和Stable Diffusion XL基准凸显了FP8量化与扩散模型训练的进步。Intel和AMD等厂商也提交了优化结果,展示了多供应商竞争格局。此次结果覆盖9大工作负载,包括BERT、DLRM、GPT-J 6B等,系统规模从单节点扩展至数千GPU,反映了 hyperscaler级训练能力。性能提升显著,推动AI基础设施标准化。(128字)

MLC MLPerf 训练基准
778

Mlperf Client 1 5 Release

MLCommons 近日发布了 MLPerf Client 1.5 基准测试套件,这是客户端 AI 推理性能评估的最新版本。该版本引入了多项优化和新场景,包括更真实的客户端负载模拟,支持热门模型如 BERT 和 Stable Diffusion。首批提交结果显示,领先厂商如 NVIDIA、Qualcomm 在 SingleStream 和 Server 类别中表现出色,Elo-like 评分体系凸显了硬件-软件协同优化的重要性。本次发布为移动设备和边缘计算 AI 应用提供了标准化评估框架,推动行业创新。(128字)

MLC MLPerf 客户端基准
650