AI训练加速 - AI资讯

秒级更新1T参数：大规模分布式RL中的P2P权重传输

本文介绍了一种基于RDMA的点对点权重更新机制，用于SGLang中的RL工作负载，作为传统NCCL广播方法的补充。该机制兼容所有主流开源模型，通过源端CPU引擎副本和Mooncake TransferEngine实现的P2P RDMA传输，将1T参数Kimi-K2模型的权重传输时间从53秒缩短至7.2秒，仅需额外消耗每个训练rank的32G CPU内存。这种优化减少了网络冗余，使推理服务器能更快恢复 rollout 操作。文章讨论了NCCL的局限性、RDMA的优势，以及新设计的细节，包括源端引擎副本、P2P映射和零拷贝传输。该方案在性能、兼容性和灵活性上显著优于现有方法，为大规模分布式RL训练提供高效解决方案。

AI训练加速 (共1篇)

秒级更新1T参数：大规模分布式RL中的P2P权重传输