SGLang-Diffusion 两个月的进展

2026年02月04日 8 约4分钟 LMSYS

LMSYS AI技术深度学习性能优化开源

自2025年11月初发布以来，SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的广泛反馈和贡献。

在过去的两个月中，我们对SGLang-Diffusion进行了精细的优化，目前（docker镜像标签：lmsysorg/sglang:dev-pr-17247）速度比初始版本快达2.5倍。

概述

我们支持几乎所有支持模型的LoRA格式。以下是部分已测试和验证的LoRA示例：

基础模型	支持的LoRA
Wan2.2	`lightx2v/Wan2.2-Distill-Loras` `Cseti/wan2.2-14B-Arcane_Jinx-lora-v1`
Wan2.1	`lightx2v/Wan2.1-Distill-Loras`
Z-Image-Turbo	`tarn59/pixel_art_style_lora_z_image_turbo` `wcde/Z-Image-Turbo-DeJPEG-Lora`
Qwen-Image	`lightx2v/Qwen-Image-Lightning` `flymy-ai/qwen-image-realism-lora` `prithivMLmods/Qwen-Image-HeadshotX` `starsfriday/Qwen-Image-EVA-LoRA`
Qwen-Image-Edit	`ostris/qwen_image_edit_inpainting` `lightx2v/Qwen-Image-Edit-2511-Lightning`
Flux	`dvyio/flux-lora-simple-illustration` `XLabs-AI/flux-furry-lora` `XLabs-AI/flux-RealismLora`

我们提供全面的HTTP API支持，以实现LoRA的设置、合并和管理。

支持SP和TP模式，以及混合并行（Ulysses Parallel、Ring Parallel和Tensor Parallel的组合）。

兼容AMD、4090、5090和MUSA硬件。

我们实现了一个灵活的ComfyUI自定义节点，集成了SGLang-Diffusion的高性能推理引擎。用户可以通过替换ComfyUI的加载器为SGL-Diffusion UNET Loader来提升性能。

SGLang-Diffusion在ComfyUI中的插件

我们对SGLang-Diffusion进行了多次性能测试，在NVIDIA GPU上实现了最先进的速度，较其他解决方案快达5倍。

我们还在AMD GPU上进行了性能评估：

我们引入了LayerwiseOffloadManager和OffloadableDiTMixin，以在计算时预取下一层的权重并优化VRAM使用。

标准加载与分层卸载的对比

我们将Cache-DiT🤗无缝集成到SGLang-Diffusion中，兼容多种并行模式，通过简单设置环境变量提高生成速度。