海外AI精选

精选TechCrunch、MIT科技评论、WIRED等全球顶尖科技媒体AI报道中文,如转载中文请标注本站出处。

TechCrunch MIT Tech Review VentureBeat WIRED AI News

DeepSeek-V3:MLPerf Training v6.0的大规模MoE预训练基准

随着大型语言模型(LLM)开发日益采用稀疏计算,评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准,这是一个拥有671B总参数的Mixture-of-Experts(MoE)架构,每token激活37B参数。该基准捕捉了行业标准创新,如Multi-head Latent Attention(MLA)和无辅助损失的负载均衡。文章详细介绍了技术架构、基准定义、数据集、收敛策略以及工程挑战。通过暖启动方法确保基准反映稳态训练效率,并设定全局批大小下限为15,360以代表生产规模。该基准为评估领先开源MoE模型的训练效率提供标准化平台,推动AI基础设施发展。(128字)