GPT-OSS 20B:MLPerf Training v6.0 的稀疏 MoE 预训练新基准
MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准,用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化,将训练波动显著压低,目标是让成绩更真实反映系统效率。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
MLCommons 为 MLPerf Training v6.0 引入 GPT-OSS 20B 预训练基准,用更小硬件门槛评测 MoE 稀疏训练能力。该基准通过固定验证集、优化器稳定化和统一初始化,将训练波动显著压低,目标是让成绩更真实反映系统效率。
随着大型语言模型(LLM)开发日益采用稀疏计算,评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准,这是一个拥有671B总参数的Mixture-of-Experts(MoE)架构,每token激活37B参数。该基准捕捉了行业标准创新,如Multi-head Latent Attention(MLA)和无辅助损失的负载均衡。文章详细介绍了技术架构、基准定义、数据集、收敛策略以及工程挑战。通过暖启动方法确保基准反映稳态训练效率,并设定全局批大小下限为15,360以代表生产规模。该基准为评估领先开源MoE模型的训练效率提供标准化平台,推动AI基础设施发展。(128字)
AI系统在各个领域的应用需要明确其行为并评估其可靠性。MLCommons的AI风险与可靠性工作组专注于提高AI可靠性,这不仅能推动市场增长,还能保护社会安全。通过制定详细计划并实施,确保AI系统在不同阶段的可靠性。
AI行业每隔几个月就会推出新一代前沿模型,这些模型的能力不断提升,同时也改变了监管机构、企业和公众需要评估的风险格局。然而,用于衡量这些风险的基准并不会自动更新。本文介绍了MLCommons的AILuminate基准及其Continuous Prompt Stewardship System,该系统通过持续刷新提示数据集,确保基准的长期有效性。系统采用基于心理测量学的指标驱动刷新、闭环数据集再平衡、社区驱动的贡献者模型、双路径审查以及可审计的来源记录等机制,解决基准陈旧和污染问题。AILuminate v1.0包含24,000个人类创作的提示,覆盖12个危害类别,并获得最高长寿分数75分。该系统不仅维护AILuminate的可靠性,还为整个AI基准领域提供宝贵经验,帮助应对基准生命周期挑战。
MLCommons 近日发布 MLPerf Client v1.6,这是评估个人电脑 AI 性能的最新基准测试套件。该版本针对笔记本电脑、台式机和工作站等设备,模拟真实生成式 AI 任务,如文本摘要、内容创作和代码分析,提供响应速度和吞吐量等标准化指标。新版更新了 Windows ML 和 llama.cpp 等核心运行时,支持 Apple 平台的 MLX with Metal 和 llama.cpp with Metal,提升性能与兼容性。同时,优化了图形界面启动速度、添加进度条,并允许禁用下载确认提示,提高重复测试效率。该基准由 AMD、Intel 等公司协作开发,开源免费,可通过 mlcommons.org/benchmarks/client 下载。(128字)
MLCommons近日公布了行业标准MLPerf Inference v6.0基准测试套件的最新结果。此次更新包括五个数据中心测试的新增或升级,以及边缘系统的全新物体检测测试。主要亮点有基于GPT-OSS 120B的开源大语言模型基准、扩展的DeepSeek-R1推理测试、首创的顺序推荐基准DLRMv3、文本到视频生成基准,以及基于YOLOv11 Large的物体检测升级。这些变化确保基准测试紧跟AI部署的真实场景,提供全面性能评估。多节点系统提交量激增30%,最大系统达72节点288加速器,彰显行业对大规模推理的重视。24家组织参与,推动AI透明与创新。(128字)
MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型(LLM)的覆盖。随着行业转向更专业化开源模型,基准测试需适应部署策略与架构变化。本轮引入两大亮点:GPT-OSS 120B 新基准,基于117B参数MoE架构,擅长数学、科学推理与编码;DeepSeek-R1 交互场景,针对实时推理应用,首次标准化 speculative decoding。GPT-OSS 分离性能与准确数据集,准确模式覆盖 AIME 2024(82.92%)、GPQA-Diamond(74.95%)、LiveCodeBench v6(84.68%);性能模式聚焦 PubMed 摘要生成。DeepSeek-R1 交互场景 TTFT ≤1.5s、TPOT ≤15ms,支持 EAGLE-style decoding。参考实现已在 GitHub 提供。(128字)
生成式AI迅猛发展,ChatGPT用户从中2023年中至2025年初增长约8倍,各大厂商模型迭代如火箭般迅猛。传统基准测试已跟不上节奏,MLPerf Endpoints应运而生,由MLCommons联合创始人David Kanter在GTC发布。该基准采用API中心架构,支持HTTP/gRPC接口,仅需URL即可测试云端或本地部署。创新引入Pareto曲线和阶跃函数可视化真实性能权衡,避免虚假指标。从2026年Q2起实现滚动提交,随时发布经审计结果。首批演示涵盖AMD、Google等厂商,多款模型如DeepSeek-R1、Llama 3.1,助力企业采购决策。(128字)
AI作为当今采用速度最快的通用技术,其全球普及却存在显著差距,反映出数字鸿沟。MLCommons推出AILuminate Culturally-Specific Multimodal Benchmark,针对亚太地区开发文化特定的多语言多模态数据集,揭示模型在全球南方语境下的性能短板。文章强调文化特定风险评估,避免简单二元标签,转而鼓励本地专家定义适当响应,如中国送钟禁忌。多模态场景如识别本地物品图像尤为关键。目前数据集已含7000+文本+图像提示,覆盖新加坡、印度、韩国等地,计划2026年夏季发布。全球伙伴合作确保基准接地气,推动AI安全公平性。(128字)
MLPerf Inference 基准已成为评估 AI 基础设施性能的行业标准。本次 v6.0 Edge 套件将 RetinaNet 升级为 Ultralytics YOLO11,这款现代化的单阶段目标检测模型在 COCO 数据集上 mAP 达 53.4%,参数仅 2530 万,支持多种计算精度权衡。任务组选择了 YOLO11l 变体,并开发了合规的 COCO MLPerf 子集(80 类、1525 张图像、52 MB),确保基准合法分发。同时优化 LoadGen 集成,解决类别映射、坐标归一化和序列化问题,实现与 Ultralytics 参考一致的准确率。该升级反映 AI 目标检测领域的最新趋势,推动硬件优化。(128 字)
MLPerf Inference v6.0 基准套件首次引入文本到视频(Text-to-Video)任务,标志着视频生成模型从实验性工具向专业工作流的核心转型。任务组选用阿里巴巴开源的 Wan2.2-T2V-A14B-Diffusers 模型,该模型采用独特的专家混合架构,通过高噪声和低噪声专家顺序激活生成高质量视频。基准限制视频时长为5秒、720p分辨率、16fps,数据集基于 VBench 精简至248样本,使用 SingleStream 场景测量延迟。VBench 提供16维质量评估,精选6关键指标确保准确性和公平性。参考实现基于 Hugging Face Diffusers,在 BF16 精度下准确率达70.48。该基准为消费者决策和厂商优化提供标准化参考。
MLCommons 医疗工作组通过 MedPerf 开源平台推进医疗 AI/ML 模型的真实世界基准测试与评估。最新集成 Apache Airflow,大幅简化联邦临床研究中的数据准备管道的分发、编排与监控。针对以往单容器方法带来的错误、调试难题及可扩展性不足等问题,新方案将多个容器串联成工作流,支持模块化复用、WebUI 监控与错误恢复。非技术用户只需 YAML 文件即可构建管道,自动转换为 Airflow DAG。FL-PoST 研究已投入生产,保障数据隐私并提升协作效率。欢迎社区探索与贡献。