SGLang 中的 EPD 解耦:视觉语言模型弹性编码器扩展
SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构,将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离,实现视觉编码容量的独立水平扩展,提升资源利用率。该方案兼容现有的 Prefill-Decode (PD) 解耦,形成三层架构,支持多种传输后端和视觉嵌入缓存。在图像密集场景下,EPD 显著降低 TTFT(首 Token 时间),负载下比同置部署低 6–8 倍;吞吐量提升约 2 倍。但图像稀疏场景可能引入额外网络延迟。基准测试基于 Qwen3-VL-235B,在 8 张 H20 GPU 上验证其在多图像请求中的优势。(128 字)