DeepSeek-V3:MLPerf Training v6.0的大规模MoE预训练基准

随着大型语言模型(LLM)开发日益采用稀疏计算,评估训练性能的基准也需跟上步伐。MLPerf Training v6.0新增基于DeepSeek-V3的预训练基准,这是一个拥有671B总参数的Mixture-of-Experts(MoE)架构,每token激活37B参数。该基准捕捉了行业标准创新,如Multi-head Latent Attention(MLA)和无辅助损失的负载均衡。文章详细介绍了技术架构、基准定义、数据集、收敛策略以及工程挑战。通过暖启动方法确保基准反映稳态训练效率,并设定全局批大小下限为15,360以代表生产规模。该基准为评估领先开源MoE模型的训练效率提供标准化平台,推动AI基础设施发展。(128字)

MLC AI基准 MoE模型
407

秒级更新1T参数:大规模分布式RL中的P2P权重传输

本文介绍了一种基于RDMA的点对点权重更新机制,用于SGLang中的RL工作负载,作为传统NCCL广播方法的补充。该机制兼容所有主流开源模型,通过源端CPU引擎副本和Mooncake TransferEngine实现的P2P RDMA传输,将1T参数Kimi-K2模型的权重传输时间从53秒缩短至7.2秒,仅需额外消耗每个训练rank的32G CPU内存。这种优化减少了网络冗余,使推理服务器能更快恢复 rollout 操作。文章讨论了NCCL的局限性、RDMA的优势,以及新设计的细节,包括源端引擎副本、P2P映射和零拷贝传输。该方案在性能、兼容性和灵活性上显著优于现有方法,为大规模分布式RL训练提供高效解决方案。

LMSYS RDMA传输 P2P权重更新
587