MLPerf Training - AI资讯

DeepSeek-V3：MLPerf Training v6.0的大规模MoE预训练基准

随着大型语言模型（LLM）开发日益采用稀疏计算，评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准，这是一个拥有671B总参数的Mixture-of-Experts（MoE）架构，每token激活37B参数。该基准捕捉了行业标准创新，如Multi-head Latent Attention（MLA）和无辅助损失的负载均衡。文章详细介绍了技术架构、基准定义、数据集、收敛策略以及工程挑战。通过暖启动方法确保基准反映稳态训练效率，并设定全局批大小下限为15,360以代表生产规模。该基准为评估领先开源MoE模型的训练效率提供标准化平台，推动AI基础设施发展。（128字）

海外AI精选

DeepSeek-V3：MLPerf Training v6.0的大规模MoE预训练基准