SGLang-Diffusion 两个月的进展

自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化,SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、并行性、硬件兼容性等方面的进展,并详细介绍了关键的技术改进和性能基准测试结果。

自2025年11月初发布以来,SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的广泛反馈和贡献。

在过去的两个月中,我们对SGLang-Diffusion进行了精细的优化,目前(docker镜像标签:lmsysorg/sglang:dev-pr-17247)速度比初始版本快达2.5倍。

概述

新模型支持

  • 支持Flux.2、Qwen-Image-Edit-2511、Z-Image-Turbo等多种新模型。
  • 兼容diffusers后端,计划有更多改进(见Issue #16642)。

LoRA支持

我们支持几乎所有支持模型的LoRA格式。以下是部分已测试和验证的LoRA示例:

基础模型支持的LoRA
Wan2.2lightx2v/Wan2.2-Distill-Loras
Cseti/wan2.2-14B-Arcane_Jinx-lora-v1
Wan2.1lightx2v/Wan2.1-Distill-Loras
Z-Image-Turbotarn59/pixel_art_style_lora_z_image_turbo
wcde/Z-Image-Turbo-DeJPEG-Lora
Qwen-Imagelightx2v/Qwen-Image-Lightning
flymy-ai/qwen-image-realism-lora
prithivMLmods/Qwen-Image-HeadshotX
starsfriday/Qwen-Image-EVA-LoRA
Qwen-Image-Editostris/qwen_image_edit_inpainting
lightx2v/Qwen-Image-Edit-2511-Lightning
Fluxdvyio/flux-lora-simple-illustration
XLabs-AI/flux-furry-lora
XLabs-AI/flux-RealismLora

我们提供全面的HTTP API支持,以实现LoRA的设置、合并和管理。

并行性

支持SP和TP模式,以及混合并行(Ulysses Parallel、Ring Parallel和Tensor Parallel的组合)。

硬件支持

兼容AMD、4090、5090和MUSA硬件。

SGLang-Diffusion与ComfyUI集成

我们实现了一个灵活的ComfyUI自定义节点,集成了SGLang-Diffusion的高性能推理引擎。用户可以通过替换ComfyUI的加载器为SGL-Diffusion UNET Loader来提升性能。

SGLang-Diffusion在ComfyUI中的插件

性能基准

我们对SGLang-Diffusion进行了多次性能测试,在NVIDIA GPU上实现了最先进的速度,较其他解决方案快达5倍。

我们还在AMD GPU上进行了性能评估:

关键改进

1. 分层卸载

我们引入了LayerwiseOffloadManagerOffloadableDiTMixin,以在计算时预取下一层的权重并优化VRAM使用。

标准加载与分层卸载的对比

2. 内核改进

  • 同步最新的FlashAttention内核以消除性能滞后。
  • 优化的QKV处理,减少中间张量的生成。
  • 利用FlashInfer实现的RoPE优化,减少开销。
  • 权重融合以减少GEMM计数。
  • 针对时间步长的CUDA内核实现。

3. Cache-DiT集成

我们将Cache-DiT🤗无缝集成到SGLang-Diffusion中,兼容多种并行模式,通过简单设置环境变量提高生成速度。

4. 其他改进

  • 内存监控:在离线和在线工作流中提供峰值使用统计。
  • 提供完整的性能剖析工具集。
  • Diffusion Cookbook中包含优化指南。

未来计划

  • 稀疏注意力后端
  • 量化支持
  • 消费级GPU优化
  • sglang-omni的联合设计