自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的广泛反馈和贡献。
在过去的两个月中,我们对SGLang-Diffusion进行了精细的优化,目前(docker镜像标签:lmsysorg/sglang:dev-pr-17247)速度比初始版本快达2.5倍。
概述
新模型支持
- 支持Flux.2、Qwen-Image-Edit-2511、Z-Image-Turbo等多种新模型。
- 兼容diffusers后端,计划有更多改进(见Issue #16642)。
LoRA支持
我们支持几乎所有支持模型的LoRA格式。以下是部分已测试和验证的LoRA示例:
| 基础模型 | 支持的LoRA |
|---|---|
| Wan2.2 | lightx2v/Wan2.2-Distill-LorasCseti/wan2.2-14B-Arcane_Jinx-lora-v1 |
| Wan2.1 | lightx2v/Wan2.1-Distill-Loras |
| Z-Image-Turbo | tarn59/pixel_art_style_lora_z_image_turbowcde/Z-Image-Turbo-DeJPEG-Lora |
| Qwen-Image | lightx2v/Qwen-Image-Lightningflymy-ai/qwen-image-realism-loraprithivMLmods/Qwen-Image-HeadshotXstarsfriday/Qwen-Image-EVA-LoRA |
| Qwen-Image-Edit | ostris/qwen_image_edit_inpaintinglightx2v/Qwen-Image-Edit-2511-Lightning |
| Flux | dvyio/flux-lora-simple-illustrationXLabs-AI/flux-furry-loraXLabs-AI/flux-RealismLora |
我们提供全面的HTTP API支持,以实现LoRA的设置、合并和管理。
并行性
支持SP和TP模式,以及混合并行(Ulysses Parallel、Ring Parallel和Tensor Parallel的组合)。
硬件支持
兼容AMD、4090、5090和MUSA硬件。
SGLang-Diffusion与ComfyUI集成
我们实现了一个灵活的ComfyUI自定义节点,集成了SGLang-Diffusion的高性能推理引擎。用户可以通过替换ComfyUI的加载器为SGL-Diffusion UNET Loader来提升性能。

SGLang-Diffusion在ComfyUI中的插件
性能基准
我们对SGLang-Diffusion进行了多次性能测试,在NVIDIA GPU上实现了最先进的速度,较其他解决方案快达5倍。
我们还在AMD GPU上进行了性能评估:
关键改进
1. 分层卸载
我们引入了LayerwiseOffloadManager和OffloadableDiTMixin,以在计算时预取下一层的权重并优化VRAM使用。

标准加载与分层卸载的对比
2. 内核改进
- 同步最新的FlashAttention内核以消除性能滞后。
- 优化的QKV处理,减少中间张量的生成。
- 利用FlashInfer实现的RoPE优化,减少开销。
- 权重融合以减少GEMM计数。
- 针对时间步长的CUDA内核实现。
3. Cache-DiT集成
我们将Cache-DiT🤗无缝集成到SGLang-Diffusion中,兼容多种并行模式,通过简单设置环境变量提高生成速度。
4. 其他改进
- 内存监控:在离线和在线工作流中提供峰值使用统计。
- 提供完整的性能剖析工具集。
- Diffusion Cookbook中包含优化指南。
未来计划
- 稀疏注意力后端
- 量化支持
- 消费级GPU优化
- 与
sglang-omni的联合设计