SGLang优化 - AI资讯

秒级更新1T参数：大规模分布式RL中的P2P权重传输

本文介绍了一种基于RDMA的点对点权重更新机制，用于SGLang中的RL工作负载，作为传统NCCL广播方法的补充。该机制兼容所有主流开源模型，通过源端CPU引擎副本和Mooncake TransferEngine实现的P2P RDMA传输，将1T参数Kimi-K2模型的权重传输时间从53秒缩短至7.2秒，仅需额外消耗每个训练rank的32G CPU内存。这种优化减少了网络冗余，使推理服务器能更快恢复 rollout 操作。文章讨论了NCCL的局限性、RDMA的优势，以及新设计的细节，包括源端引擎副本、P2P映射和零拷贝传输。该方案在性能、兼容性和灵活性上显著优于现有方法，为大规模分布式RL训练提供高效解决方案。

Shopify VLM推理基准测试详解

MLCommons近日公布VLM（视觉语言模型）推理基准测试结果，Shopify团队表现出色。本次测试聚焦LLaVA-1.5-7B等模型在电商场景下的实时推理性能，采用MLPerf Inference框架评估。Shopify利用SGLang和自定义优化，在A100 GPU上实现高吞吐量和低延迟，Elo Rating领先同行。测试覆盖图像描述、视觉问答等多任务，揭示了VLM在生产环境部署的关键挑战与优化策略，为AI电商应用提供宝贵参考。（128字）

SGLang优化 (共2篇)

秒级更新1T参数：大规模分布式RL中的P2P权重传输

Shopify VLM推理基准测试详解