大模型优化 - AI测评

让张量翱翔：R-Fork 加速大模型权重加载

本文介绍 Tensor R-Fork（Tensor Remote Fork），一种创新的权重加载方法，利用高效的跨节点设备间互连，从运行中的 SGLang 实例零拷贝加载张量至新实例。该技术带来三大优势：显著加速权重加载（如 Deepseek-R1 从数分钟缩短至秒级）、消除本地磁盘/DRAM 冗余存储（节省约 600GB）、不干扰推理服务。核心设计基于 GPU-Direct RDMA 构建 P2P 权重存储架构，支持 NCCL 和 TransferEngine 两种后端。性能测试显示，在 8 张 NVIDIA H20 GPU 上加载 Deepseek-R1 模型时间大幅缩短，已实现生产就绪。