SGLang Diffusion:加速视频与图像生成

SGLang Diffusion 将 SGLang 的顶尖性能扩展至扩散模型的图像和视频生成,支持主流开源模型如 Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux。通过 OpenAI 兼容 API、CLI 和 Python 接口,提供 1.2x 至 5.9x 的加速效果。与 FastVideo 团队合作,构建从训练到生产的全生态。架构采用 ComposedPipelineBase 和高级并行技术(如 USP、CFG-parallelism),确保高效灵活。基准测试显示,在 H100/H200 GPU 上显著优于 Hugging Face Diffusers。未来将打造端到端扩散生态。(128字)

我们很高兴推出 SGLang Diffusion,它将 SGLang 的顶尖性能引入扩散模型的图像和视频生成领域。

SGLang Diffusion 支持主流开源视频与图像生成模型,包括 Wan 系列、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux,同时通过多种 API 接口(OpenAI 兼容 API、CLI、Python 接口)实现快速推理和易用性。在多样化工作负载中,它带来 1.2x 至 5.9x 的加速。

与 FastVideo 团队合作,我们构建了扩散模型的完整生态,从后训练到生产部署。代码开源于 GitHub

SGLang Diffusion 在 H100 GPU 上的性能基准

SGLang Diffusion 在 H200 GPU 上的性能基准

为何将 Diffusion 引入 SGLang?

随着扩散模型成为图像和视频生成的核心技术,社区强烈呼吁将 SGLang 的高性能和无缝体验扩展到这些模态。我们开发 SGLang Diffusion 以响应此需求,提供统一的高性能引擎,支持语言和扩散任务。

这种统一方法至关重要,因为未来生成技术将融合架构。已有先锋模型如 ByteDance 的 Bagel、Meta 的 Transfusion,以及 NVIDIA 的 Fast-dLLM v2,它们结合自回归(AR)和扩散方法。SGLang Diffusion 设计为未来-proof 的高性能解决方案。

架构

SGLang Diffusion 基于 SGLang 的成熟服务架构,继承强大调度器和优化的 sgl-kernel,确保性能与灵活性。

核心是 ComposedPipelineBase,一个灵活抽象,协调多个模块化 PipelineStage,如 DenoisingStage 的去噪循环或 DecodingStage 的 VAE 解码,便于开发者构建自定义管道。

为实现顶尖速度,集成高级并行技术:核心 Transformer 支持 Unified Sequence Parallelism (USP,包括 Ulysses-SP 和 Ring-Attention),其他组件支持 CFG-parallelism 和 tensor parallelism (TP)。

系统基于增强的 FastVideo 分支,与其团队紧密合作:SGLang Diffusion 专注推理加速,FastVideo 提供训练支持如模型蒸馏。

模型支持

支持热门开源视频与图像生成模型:

  • 视频模型:Wan 系列、FastWan、Hunyuan
  • 图像模型:Qwen-Image、Qwen-Image-Edit、Flux

完整支持列表见 此处

使用方法

提供 CLI、Python 引擎 API 和 OpenAI 兼容 API,便于集成。

安装

# 通过 pip 或 uv
uv pip install 'sglang[diffusion]' --prerelease=allow

# 从源码
 git clone https://github.com/sgl-project/sglang.git
 cd sglang
 uv pip install -e "python[diffusion]" --prerelease=allow

CLI

启动服务器并发送请求:

sglang serve --model-path black-forest-labs/FLUX.1-dev --port 3000

curl http://127.0.0.1:3000/v1/images/generations \
  -o >(jq -r '.data[0].b64_json' | base64 --decode > example.png) \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "black-forest-labs/FLUX.1-dev",
    "prompt": "A cute baby sea otter",
    "n": 1,
    "size": "1024x1024",
    "response_format": "b64_json"
  }'

或直接生成图像:

sglang generate --model-path black-forest-labs/FLUX.1-dev \
  --prompt "A Logo With Bold Large Text: SGL Diffusion" \
  --save-output

详见 安装指南CLI 指南

Demo

文本到视频:Wan-AI/Wan2.1

sglang generate --model-path Wan-AI/Wan2.1-T2V-1.3B-Diffusers \
    --prompt "A curious raccoon" \
    --save-output

下载视频

图像到视频:Wan-AI/Wan2.1-I2V

sglang generate --model-path=Wan-AI/Wan2.1-I2V-14B-480P-Diffusers \
    --prompt="Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard..." \
    --image-path="https://github.com/Wan-Video/Wan2.2/blob/990af50de458c19590c245151197326e208d7191/examples/i2v_input.JPG?raw=true" \
    --num-gpus 2 --enable-cfg-parallel --save-output

下载视频

文本到图像:FLUX

sglang generate --model-path black-forest-labs/FLUX.1-dev \
    --prompt "A Logo With Bold Large Text: SGL Diffusion" \
    --save-output
文本到图像:FLUX

文本到图像:Qwen-Image

sglang generate --model-path=Qwen/Qwen-Image \
    --prompt='A curious raccoon' \
    --width=720 --height=720 --save-output
文本到图像:Qwen-Image

图像到图像:Qwen-Image-Edit

sglang generate --model-path=Qwen/Qwen-Image-Edit \
    --prompt="Convert 2D style to 3D style" --image-path="https://github.com/lm-sys/lm-sys.github.io/releases/download/test/TI2I_Qwen_Image_Edit_Input.jpg" \
    --width=1536 --height=1024 --save-output
输入图像
输入
输出图像
输出

性能基准

如顶部图表所示,SGLang Diffusion 与 Hugging Face Diffusers 等流行基线相比,在图像和视频生成中实现顶尖性能。与单 GPU 相比,CFG-Parallel 和 USP 等并行设置带来显著加速。

路线图与扩散生态

我们与 FastVideo 团队合作,构建全面扩散生态,提供从模型训练到高性能推理的端到端解决方案。