Global AI Picks

Curated AI coverage from TechCrunch, MIT Technology Review, WIRED and other top global tech media. Please cite this site when republishing.

TechCrunch MIT Tech Review VentureBeat WIRED AI News

DeepSeek-V3: A Large-Scale MoE Pretraining Benchmark for MLPerf Training v6.0

随着大型语言模型(LLM)开发日益采用稀疏计算,评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准,这是一个拥有671B总参数的Mixture-of-Experts(MoE)架构,每token激活37B参数。该基准捕捉了行业标准创新,如Multi-head Latent Attention(MLA)和无辅助损失的负载均衡。文章详细介绍了技术架构、基准定义、数据集、收敛策略以及工程挑战。通过暖启动方法确保基准反映稳态训练效率,并设定全局批大小下限为15,360以代表生产规模。该基准为评估领先开源MoE模型的训练效率提供标准化平台,推动AI基础设施发展。(128字)

MLC AI基准 MoE模型
437