SGLang Diffusion：加速视频与图像生成

2026年02月04日 4 约9分钟 LMSYS

LMSYS SGLang Diffusion 扩散模型图像生成视频生成 AI推理加速

我们很高兴推出 SGLang Diffusion，它将 SGLang 的顶尖性能引入扩散模型的图像和视频生成领域。

SGLang Diffusion 支持主流开源视频与图像生成模型，包括 Wan 系列、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux，同时通过多种 API 接口（OpenAI 兼容 API、CLI、Python 接口）实现快速推理和易用性。在多样化工作负载中，它带来 1.2x 至 5.9x 的加速。

与 FastVideo 团队合作，我们构建了扩散模型的完整生态，从后训练到生产部署。代码开源于 GitHub。

SGLang Diffusion 在 H100 GPU 上的性能基准

SGLang Diffusion 在 H200 GPU 上的性能基准

为何将 Diffusion 引入 SGLang？

随着扩散模型成为图像和视频生成的核心技术，社区强烈呼吁将 SGLang 的高性能和无缝体验扩展到这些模态。我们开发 SGLang Diffusion 以响应此需求，提供统一的高性能引擎，支持语言和扩散任务。

这种统一方法至关重要，因为未来生成技术将融合架构。已有先锋模型如 ByteDance 的 Bagel、Meta 的 Transfusion，以及 NVIDIA 的 Fast-dLLM v2，它们结合自回归（AR）和扩散方法。SGLang Diffusion 设计为未来-proof 的高性能解决方案。

架构

SGLang Diffusion 基于 SGLang 的成熟服务架构，继承强大调度器和优化的 sgl-kernel，确保性能与灵活性。

核心是 ComposedPipelineBase，一个灵活抽象，协调多个模块化 PipelineStage，如 DenoisingStage 的去噪循环或 DecodingStage 的 VAE 解码，便于开发者构建自定义管道。

为实现顶尖速度，集成高级并行技术：核心 Transformer 支持 Unified Sequence Parallelism (USP，包括 Ulysses-SP 和 Ring-Attention)，其他组件支持 CFG-parallelism 和 tensor parallelism (TP)。

系统基于增强的 FastVideo 分支，与其团队紧密合作：SGLang Diffusion 专注推理加速，FastVideo 提供训练支持如模型蒸馏。

模型支持

支持热门开源视频与图像生成模型：

视频模型：Wan 系列、FastWan、Hunyuan
图像模型：Qwen-Image、Qwen-Image-Edit、Flux

完整支持列表见此处。

使用方法

提供 CLI、Python 引擎 API 和 OpenAI 兼容 API，便于集成。

安装

# 通过 pip 或 uv
uv pip install 'sglang[diffusion]' --prerelease=allow

# 从源码
 git clone https://github.com/sgl-project/sglang.git
 cd sglang
 uv pip install -e "python[diffusion]" --prerelease=allow

CLI

启动服务器并发送请求：

sglang serve --model-path black-forest-labs/FLUX.1-dev --port 3000

curl http://127.0.0.1:3000/v1/images/generations \
  -o >(jq -r '.data[0].b64_json' | base64 --decode > example.png) \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "black-forest-labs/FLUX.1-dev",
    "prompt": "A cute baby sea otter",
    "n": 1,
    "size": "1024x1024",
    "response_format": "b64_json"
  }'

或直接生成图像：

sglang generate --model-path black-forest-labs/FLUX.1-dev \
  --prompt "A Logo With Bold Large Text: SGL Diffusion" \
  --save-output

详见安装指南和 CLI 指南。

Demo

文本到视频：Wan-AI/Wan2.1

sglang generate --model-path Wan-AI/Wan2.1-T2V-1.3B-Diffusers \
    --prompt "A curious raccoon" \
    --save-output

下载视频

图像到视频：Wan-AI/Wan2.1-I2V

sglang generate --model-path=Wan-AI/Wan2.1-I2V-14B-480P-Diffusers \
    --prompt="Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard..." \
    --image-path="https://github.com/Wan-Video/Wan2.2/blob/990af50de458c19590c245151197326e208d7191/examples/i2v_input.JPG?raw=true" \
    --num-gpus 2 --enable-cfg-parallel --save-output

下载视频

文本到图像：FLUX

sglang generate --model-path black-forest-labs/FLUX.1-dev \
    --prompt "A Logo With Bold Large Text: SGL Diffusion" \
    --save-output

文本到图像：Qwen-Image

sglang generate --model-path=Qwen/Qwen-Image \
    --prompt='A curious raccoon' \
    --width=720 --height=720 --save-output

图像到图像：Qwen-Image-Edit

sglang generate --model-path=Qwen/Qwen-Image-Edit \
    --prompt="Convert 2D style to 3D style" --image-path="https://github.com/lm-sys/lm-sys.github.io/releases/download/test/TI2I_Qwen_Image_Edit_Input.jpg" \
    --width=1536 --height=1024 --save-output

输入

输出

性能基准

如顶部图表所示，SGLang Diffusion 与 Hugging Face Diffusers 等流行基线相比，在图像和视频生成中实现顶尖性能。与单 GPU 相比，CFG-Parallel 和 USP 等并行设置带来显著加速。

路线图与扩散生态

我们与 FastVideo 团队合作，构建全面扩散生态，提供从模型训练到高性能推理的端到端解决方案。