我们很高兴推出 SGLang Diffusion,它将 SGLang 的顶尖性能引入扩散模型的图像和视频生成领域。
SGLang Diffusion 支持主流开源视频与图像生成模型,包括 Wan 系列、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux,同时通过多种 API 接口(OpenAI 兼容 API、CLI、Python 接口)实现快速推理和易用性。在多样化工作负载中,它带来 1.2x 至 5.9x 的加速。
与 FastVideo 团队合作,我们构建了扩散模型的完整生态,从后训练到生产部署。代码开源于 GitHub。
SGLang Diffusion 在 H100 GPU 上的性能基准
SGLang Diffusion 在 H200 GPU 上的性能基准
为何将 Diffusion 引入 SGLang?
随着扩散模型成为图像和视频生成的核心技术,社区强烈呼吁将 SGLang 的高性能和无缝体验扩展到这些模态。我们开发 SGLang Diffusion 以响应此需求,提供统一的高性能引擎,支持语言和扩散任务。
这种统一方法至关重要,因为未来生成技术将融合架构。已有先锋模型如 ByteDance 的 Bagel、Meta 的 Transfusion,以及 NVIDIA 的 Fast-dLLM v2,它们结合自回归(AR)和扩散方法。SGLang Diffusion 设计为未来-proof 的高性能解决方案。
架构
SGLang Diffusion 基于 SGLang 的成熟服务架构,继承强大调度器和优化的 sgl-kernel,确保性能与灵活性。
核心是 ComposedPipelineBase,一个灵活抽象,协调多个模块化 PipelineStage,如 DenoisingStage 的去噪循环或 DecodingStage 的 VAE 解码,便于开发者构建自定义管道。
为实现顶尖速度,集成高级并行技术:核心 Transformer 支持 Unified Sequence Parallelism (USP,包括 Ulysses-SP 和 Ring-Attention),其他组件支持 CFG-parallelism 和 tensor parallelism (TP)。
系统基于增强的 FastVideo 分支,与其团队紧密合作:SGLang Diffusion 专注推理加速,FastVideo 提供训练支持如模型蒸馏。
模型支持
支持热门开源视频与图像生成模型:
- 视频模型:Wan 系列、FastWan、Hunyuan
- 图像模型:Qwen-Image、Qwen-Image-Edit、Flux
完整支持列表见 此处。
使用方法
提供 CLI、Python 引擎 API 和 OpenAI 兼容 API,便于集成。
安装
# 通过 pip 或 uv
uv pip install 'sglang[diffusion]' --prerelease=allow
# 从源码
git clone https://github.com/sgl-project/sglang.git
cd sglang
uv pip install -e "python[diffusion]" --prerelease=allowCLI
启动服务器并发送请求:
sglang serve --model-path black-forest-labs/FLUX.1-dev --port 3000
curl http://127.0.0.1:3000/v1/images/generations \
-o >(jq -r '.data[0].b64_json' | base64 --decode > example.png) \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"model": "black-forest-labs/FLUX.1-dev",
"prompt": "A cute baby sea otter",
"n": 1,
"size": "1024x1024",
"response_format": "b64_json"
}'或直接生成图像:
sglang generate --model-path black-forest-labs/FLUX.1-dev \
--prompt "A Logo With Bold Large Text: SGL Diffusion" \
--save-outputDemo
文本到视频:Wan-AI/Wan2.1
sglang generate --model-path Wan-AI/Wan2.1-T2V-1.3B-Diffusers \
--prompt "A curious raccoon" \
--save-output图像到视频:Wan-AI/Wan2.1-I2V
sglang generate --model-path=Wan-AI/Wan2.1-I2V-14B-480P-Diffusers \
--prompt="Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard..." \
--image-path="https://github.com/Wan-Video/Wan2.2/blob/990af50de458c19590c245151197326e208d7191/examples/i2v_input.JPG?raw=true" \
--num-gpus 2 --enable-cfg-parallel --save-output文本到图像:FLUX
sglang generate --model-path black-forest-labs/FLUX.1-dev \
--prompt "A Logo With Bold Large Text: SGL Diffusion" \
--save-output
文本到图像:Qwen-Image
sglang generate --model-path=Qwen/Qwen-Image \
--prompt='A curious raccoon' \
--width=720 --height=720 --save-output
图像到图像:Qwen-Image-Edit
sglang generate --model-path=Qwen/Qwen-Image-Edit \
--prompt="Convert 2D style to 3D style" --image-path="https://github.com/lm-sys/lm-sys.github.io/releases/download/test/TI2I_Qwen_Image_Edit_Input.jpg" \
--width=1536 --height=1024 --save-output

性能基准
如顶部图表所示,SGLang Diffusion 与 Hugging Face Diffusers 等流行基线相比,在图像和视频生成中实现顶尖性能。与单 GPU 相比,CFG-Parallel 和 USP 等并行设置带来显著加速。
路线图与扩散生态
我们与 FastVideo 团队合作,构建全面扩散生态,提供从模型训练到高性能推理的端到端解决方案。