This article has not been translated into English yet. Showing the original Chinese version.

谷歌Gemma 4开源模型采用推测解码，速度提升3倍

May 7, 2026 34 approx.4min Ars Technica

推测解码谷歌 Gemma 4 开源AI模型推理加速

编者按：速度与质量兼得的罕见突破

在AI大模型领域，“更快”往往意味着“更差”——压缩模型、量化或剪枝等技术总会以牺牲一定精度为代价。但谷歌最新开源的Gemma 4模型却似乎打破了这一铁律。通过一种名为“推测解码”的架构创新，该模型在不损害输出质量的前提下实现了最高3倍的推理加速。这究竟是技术奇迹还是营销噱头？我们深入剖析了其背后的原理。

推测解码：让大模型学会“打草稿”

传统自回归语言模型每次只能生成一个令牌（token），必须等待前一个令牌完成才能继续，这导致长序列生成时延迟极高。推测解码的核心理念是：用一个轻量级的“草稿模型”（draft model）快速生成候选序列，然后由更强大的“主模型”并行验证并修正错误。由于验证过程可一次性处理多个令牌，整体吞吐量得以显著提升。

过去，这种方法面临两大难题：一是草稿模型与主模型之间存在通信开销，二是两者分布不一致时验证效率低下。谷歌的研究人员另辟蹊径，将草稿模型和主模型合并为一个稀疏专家混合（MoE）模型。在这个统一架构中，部分专家负责快速生成草稿，另一部分专家负责精确验证，共享底层参数和激活值，从而消除了数据传输瓶颈。

“我们设计了一种细粒度的流水线并行策略，使得草稿生成和验证可以在同一模型的不同阶段交替进行，几乎没有额外延迟。”——谷歌Gemma团队技术博客

性能实测：3倍加速并非空谈

根据Ars Technica的报道，谷歌在多个基准测试上对Gemma 4进行了评估。在代码生成、文本摘要和对话任务中，采用推测解码的版本相比普通自回归生成保持了完全相同的BLEU和ROUGE分数，而推理速度提升了2.5至3.1倍。更令人惊讶的是，令牌生成质量在人工评估中也未出现显著退化。

这一成绩背后的关键之一是“令牌接受率”（token acceptance rate）。Gemma 4通过联合训练使草稿模型与主模型的分布高度对齐，在典型场景下草稿令牌被主模型接受的比率超过90%，远高于此前方法的70%左右。

行业影响：开源生态的新变量

Gemma 4的发布恰逢开源大模型竞争白热化之际。Meta的Llama 3、Mistral AI的Mixtral以及国内的通义千问等模型均在不同维度追求性能提升，但推理效率始终是部署成本的核心瓶颈。推测解码虽然并非全新概念（如之前英伟达的Medusa、微软的Lookahead Decoding），但谷歌将其与MoE架构深度整合并完全开源，降低了实际应用门槛。

值得注意的是，Gemma 4采用Gemma系列一贯的宽松许可证（允许商业使用），这意味着开发者可以将其直接用于产品级推理服务，或进一步蒸馏、微调。若该技术的复现门槛不高，很可能推动更多模型默认支持推测解码加速。

局限性：并非所有场景都适用

不过，推测解码并非万能。它的加速效果高度依赖硬件并行能力：在单卡GPU上，草稿生成与验证的串行化可能导致收益下降。此外，对于短文本生成（如单轮问答），草稿模型的启动开销可能会抵消加速优势。谷歌的测试主要针对长序列（512个令牌以上），短任务场景下的性能数据尚未公布。

编者认为，Gemma 4更大的价值在于验证了一种“无痛加速”的范式——无需修改模型权重、无需牺牲质量，就能显著提升吞吐。这为低成本AI服务（如聊天机器人、内容生成）提供了直接可用的基础设施。

本文编译自Ars Technica

编者按：速度与质量兼得的罕见突破

推测解码：让大模型学会“打草稿”

性能实测：3倍加速并非空谈

行业影响：开源生态的新变量

局限性：并非所有场景都适用

Related Articles