SGLang - AI资讯 | 赢政天下

SGLang 赋能扩散大模型：即日支持 LLaDA 2.0

我们兴奋地推出 SGLang 中的 Diffusion Large Language Model (dLLM) 框架设计与实现。通过利用现有的 ChunkedPrefill 机制，该系统实现了无缝集成、无需核心架构变更、继承现有推理优化，并提供最大灵活性让用户自定义扩散解码算法。LLaDA 作为首款 dLLM，展现出优异的数据理解能力和更快推理速度，尤其在低延迟小批量场景。面对大规模 dLLM 如 100B LLaDA2.0-flash 的评估与 RL 后训练挑战，现有的推理引擎不足以支撑。我们在 SGLang 中引入 Block Diffusion 支持，利用 Chunked-Prefill 管道，仅微调关键组件，实现高效批处理与流式输出，显著提升吞吐量（如 LLaDA2.0-flash-CAP 达 935 tokens/s）。（128字）

SGLang 中的 EPD 解耦：视觉语言模型弹性编码器扩展

SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构，将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离，实现视觉编码容量的独立水平扩展，提升资源利用率。该方案兼容现有的 Prefill-Decode (PD) 解耦，形成三层架构，支持多种传输后端和视觉嵌入缓存。在图像密集场景下，EPD 显著降低 TTFT（首 Token 时间），负载下比同置部署低 6–8 倍；吞吐量提升约 2 倍。但图像稀疏场景可能引入额外网络延迟。基准测试基于 Qwen3-VL-235B，在 8 张 H20 GPU 上验证其在多图像请求中的优势。（128 字）

单H200部署1TB模型：INT4 QAT RL端到端实践

受Kimi K2团队启发，SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化，实现了与BF16全精度相当的稳定性和训推一致性。极致INT4压缩让约1TB规模模型单节点H200（141GB）部署，避免跨节点通信瓶颈，大幅提升部署效率。本文详解开源生态下完整pipeline的技术细节，提供高性能低成本的实用参考。项目由SGLang RL、InfiXAI、蚂蚁集团Asystem & AQ Infra、slime和RadixArk团队联合完成，已同步至slime和Miles社区。（128字）

SGLang优化GLM4-MoE生产部署：TTFT提升65%

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略，涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术，在代理编码工作负载下实现了TTFT降低高达65%、TPOT提升22%的显著性能提升。这些优化已在H200集群的TP8和FP8配置上验证，提供高吞吐量与低延迟的生产蓝图。基准测试显示，在输入长度4096、输出1000的场景下，请求率达14 req/s时效果显著。所有优化已部分上游合并，并开源复现脚本。

SGLang (共34篇)

SGLang 赋能扩散大模型：即日支持 LLaDA 2.0

SGLang 中的 EPD 解耦：视觉语言模型弹性编码器扩展

单H200部署1TB模型：INT4 QAT RL端到端实践

SGLang优化GLM4-MoE生产部署：TTFT提升65%