SpecBundle与SpecForge v0.2：生产级推测解码模型与框架重磅发布

2026年02月04日 4 约7分钟 LMSYS

LMSYS 推测解码 SpecForge SpecBundle EAGLE3 LLM推理

TL;DR

SpecForge团队与多家行业伙伴——包括Ant、Meituan、Nex-AGI和EigenAI——合作发布SpecBundle（Phase 1），这是一个生产级EAGLE-3模型检查点集合，这些模型在大规模数据集上训练而成。SpecBundle旨在提升推测解码的可用性和实际性能，第一阶段聚焦指令微调模型。

与此同时，SpecForge v0.2带来重大系统升级，包括全面重构以改善易用性，并支持多种执行后端，进一步提升可扩展性和生产就绪度。

背景

Speculative decoding（推测解码）于2023年首次提出，这是一种有前景的技术，用于通过轻量级草稿模型提出多个令牌，随后由更强的目标模型验证，从而加速大语言模型（LLM）推理。该方法原则上能在不牺牲输出质量的前提下显著降低解码延迟，适用于本地和企业部署。近年来，研究社区不断完善这一范式，涌现出如EAGLE3等SOTA方法，这些方法在令牌接受率和端到端加速上均展现出强劲的理论保障和实证收益。

现有问题

尽管取得这些进展，推测解码——尤其是EAGLE3等SOTA方法——在开源社区尚未广泛采用。我们认为这一差距主要源于三个因素。

因素1：缺乏易用、生产就绪的推测解码模型训练工具。大多数现有实现仍停留在研究原型阶段，要么维护不善、范围狭窄，要么仅提供简单实现而缺少系统级优化。这些工具难以支持当下LLM生态中常见的多样化模型架构和规模。

因素2：高质量草稿模型的可用性是主要瓶颈。推测解码的效果高度依赖草稿模型的强度，但开源社区此类模型稀缺。下表总结了当前情况。EAGLE3等方法需额外训练草稿模型，而公开的EAGLE3检查点主要限于原作者发布，这严重制约了更广泛的采用。

Model	Native MTP	Community EAGLE3	SpecBundle
meta-llama/Llama-3.1-8B-Instruct	❌	✅	✅
meta-llama/Llama-3.3-70B-Instruct	❌	✅	✅
meta-llama/Llama-4-Scout-17B-16E-Instruct	❌	✅	✅
Qwen/Qwen3-30B-A3B-Instruct-2507	❌	❌	✅
Qwen/Qwen3-235B-A22B-Instruct-2507	❌	✅	✅
Qwen/Qwen3-Next-80B-A3B-Instruct-FP8	✅	❌	✅
Qwen/Qwen3-Coder-30B-A3B-Instruct	❌	❌	✅
Qwen/Qwen3-Coder-480B-A35B-Instruct	❌	❌	✅
inclusionAI/Ling-flash-2.0	❌	❌	✅
moonshotai/Kimi-K2-Instruct	❌	❌	✅
nex-agi/Qwen3-30B-A3B-Nex-N1	❌	❌	✅
nex-agi/Qwen3-32B-Nex-N1	❌	❌	✅

因素3：大多数现有草稿模型仅在较小或精选数据集上训练，未扩展到现代LLM训练所用的海量多样化语料库。因此，这些模型在与强目标模型配对时泛化能力有限，令牌接受率较低，实际加速效果打折。没有大规模、生产级草稿模型，EAGLE3等先进方法的潜力难以充分发挥。

动机

上述差距促使我们发布SpecForge v0.2和SpecBundle。作为中立的开源社区，SpecForge团队旨在通过提供生产级训练框架和高性能草稿模型，积极推动推测解码的发展，使其更实用且易获取。

这一举措带来多项关键益处：

通过标准化、可扩展基线扩展研究可能性，推动推测解码方法创新。
启用更快本地推理和模型服务，支持如Ollama等轻量部署场景。
借助SGLang等推理引擎降低企业部署成本，提升吞吐量而不牺牲输出质量。
提供EAGLE3检查点作为强初始化点，便于领域特定任务高效微调。
提升强化学习工作流效率，支持如ReSpec与slime等框架集成。

SpecForge v0.2

SpecForge开源约五个月，得益于社区支持，该系统已演变为更可靠、高效、可扩展的解决方案。在为SpecBundle训练多种模型的两个月中，我们发现原设计存在若干局限。这些洞见驱动了对框架的全面升级，提升性能与易用性。SpecForge v0.2的主要变更如下。

用户友好性提升

早期版本中，一些功能独立开发，未充分考虑长期维护性和用户体验，导致用户困惑。近两个月，我们优先优化易用性，对框架进行大幅重构。主要改进包括：

重构数据处理管道，消除冗余并提升效率。例如，通过数据并行和异步处理，数据再生速度比v0.1快10倍。
将在线和离线训练脚本统一为单一实现，确保训练逻辑一致，避免模式分歧。
优化文档结构与清晰度，提供更清晰的逻辑流程和更好可读性，帮助用户快速上手并迭代。

多后端支持

早期版本高度依赖内部目标模型实现，导致模型支持繁琐且易出错。为解决此问题并更好地利用生态，我们引入统一的目标模型集成接口。

v0.2中新增Eagle3TargetModel接口，实现多执行后端无缝支持。目前集成SGLang和Hugging Face Transformers作为后端。新后端仅需实现Eagle3TargetModel.generate_eagle3_data方法，即可大幅降低扩展门槛并提升长期维护性。

target_model = get_eagle3_target_model(
    pretrained_model_name_or_path="meta-llama/Llama-3.1-8B-Instruct",
    backend="sglang",
    torch_dtype=torch.bfloat16,
    device="cuda",
    cache_dir=args.model_download_dir,
    **target_model_kwargs,
)

这些后端不仅减轻开发者模型实现与性能优化的负担，还为用户提供灵活选择，适应不同训练场景。

SpecBundle计划

如前所述，开源社区在推测解码解决方案的可用性和性能上仍面临重大瓶颈。SpecBundle正是针对这些挑战的直接回应——由开源社区与行业伙伴联合推动的举措，旨在为主流开源模型配备高性能EAGLE3草稿模型权重，实现推测解码的民主化。据我们所知，这是首次公开努力。

👉 查看SpecBundle文档。

本次初始发布，SpecBundle路线图聚焦指令微调模型。我们相信，向更广泛模型扩展推测解码支持，将进一步降低本地和企业部署成本。