下一代推测解码：DFlash与Spec V2

Jun 29, 2026 9 Views - Read Source LMSYS

LMSYS 推测解码 DFlash SGLang LLM推理加速 Spec V2

This article has not been translated into English yet. Showing the original Chinese version.

Modal、Z Lab与SGLang团队联合推出DFlash推测解码模型，搭配SGLang全新默认Spec V2引擎，可实现LLM推理服务的最优延迟。新发布的Qwen 3.5 397B-A17B专用DFlash模型在全部基准测试中，吞吐量均超越基线模型与原生MTP。

在HumanEval编码数据集、并发1、贪婪解码设置下，其吞吐量达到基线的4.3倍以上、MTP的1.5倍。

三平台同步开源模型

为庆祝此次合作，模型已在Hugging Face三家组织同步发布：z-lab/Qwen3.5-397B-A17B-DFlash、modal-labs/Qwen3.5-397B-A17B-DFlash及lmsys/Qwen3.5-397B-A17B-DFlash。

传统自回归解码效率低下，推测解码通过小草稿模型并行提出多个token再由目标模型验证，可在不损失质量的前提下大幅加速。但EAGLE系列与原生MTP仍依赖顺序生成，限制了加速上限。

Z Lab开发的DFlash采用轻量块扩散草稿模型，可一次性并行生成整块token，完美匹配GPU/TPU特性。关键创新在于将目标模型的隐藏表示直接注入草稿模型KV缓存，使草稿模型无需从头建模上下文，专注预测下一token块。

加速效果取决于接受长度与草稿开销。DFlash同时优化两者：扩散草稿降低成本，KV注入提升接受长度。5层DFlash在GSM8K、HumanEval、MT-Bench上均显著超越EAGLE-3。

SGLang团队将DFlash从研究原型优化至生产级引擎，先集成至V1引擎实现KV缓存共享，再迁移至V2引擎，通过减少主机同步进一步提升性能。用户可通过指定参数一键启动高性能服务。