This article has not been translated into English yet. Showing the original Chinese version.

谷歌Gemma 4开源模型采用推测解码,速度提升3倍

谷歌最新发布的Gemma 4开源AI模型引入了“推测解码”(Speculative Decoding)技术,通过辅助模型预先生成多个令牌再由主模型并行验证,在保持输出质量的同时将推理速度提升最高3倍。这一创新将两个模型合并为一个稀疏专家混合架构,降低了通信开销,为大模型开源社区提供了兼具高效与开放性的新选择。

编者按:速度与质量兼得的罕见突破

在AI大模型领域,“更快”往往意味着“更差”——压缩模型、量化或剪枝等技术总会以牺牲一定精度为代价。但谷歌最新开源的Gemma 4模型却似乎打破了这一铁律。通过一种名为“推测解码”的架构创新,该模型在不损害输出质量的前提下实现了最高3倍的推理加速。这究竟是技术奇迹还是营销噱头?我们深入剖析了其背后的原理。

推测解码:让大模型学会“打草稿”

传统自回归语言模型每次只能生成一个令牌(token),必须等待前一个令牌完成才能继续,这导致长序列生成时延迟极高。推测解码的核心理念是:用一个轻量级的“草稿模型”(draft model)快速生成候选序列,然后由更强大的“主模型”并行验证并修正错误。由于验证过程可一次性处理多个令牌,整体吞吐量得以显著提升。

过去,这种方法面临两大难题:一是草稿模型与主模型之间存在通信开销,二是两者分布不一致时验证效率低下。谷歌的研究人员另辟蹊径,将草稿模型和主模型合并为一个稀疏专家混合(MoE)模型。在这个统一架构中,部分专家负责快速生成草稿,另一部分专家负责精确验证,共享底层参数和激活值,从而消除了数据传输瓶颈。

“我们设计了一种细粒度的流水线并行策略,使得草稿生成和验证可以在同一模型的不同阶段交替进行,几乎没有额外延迟。”——谷歌Gemma团队技术博客

性能实测:3倍加速并非空谈

根据Ars Technica的报道,谷歌在多个基准测试上对Gemma 4进行了评估。在代码生成、文本摘要和对话任务中,采用推测解码的版本相比普通自回归生成保持了完全相同的BLEU和ROUGE分数,而推理速度提升了2.5至3.1倍。更令人惊讶的是,令牌生成质量在人工评估中也未出现显著退化。

这一成绩背后的关键之一是“令牌接受率”(token acceptance rate)。Gemma 4通过联合训练使草稿模型与主模型的分布高度对齐,在典型场景下草稿令牌被主模型接受的比率超过90%,远高于此前方法的70%左右。

行业影响:开源生态的新变量

Gemma 4的发布恰逢开源大模型竞争白热化之际。Meta的Llama 3、Mistral AI的Mixtral以及国内的通义千问等模型均在不同维度追求性能提升,但推理效率始终是部署成本的核心瓶颈。推测解码虽然并非全新概念(如之前英伟达的Medusa、微软的Lookahead Decoding),但谷歌将其与MoE架构深度整合并完全开源,降低了实际应用门槛。

值得注意的是,Gemma 4采用Gemma系列一贯的宽松许可证(允许商业使用),这意味着开发者可以将其直接用于产品级推理服务,或进一步蒸馏、微调。若该技术的复现门槛不高,很可能推动更多模型默认支持推测解码加速。

局限性:并非所有场景都适用

不过,推测解码并非万能。它的加速效果高度依赖硬件并行能力:在单卡GPU上,草稿生成与验证的串行化可能导致收益下降。此外,对于短文本生成(如单轮问答),草稿模型的启动开销可能会抵消加速优势。谷歌的测试主要针对长序列(512个令牌以上),短任务场景下的性能数据尚未公布。

编者认为,Gemma 4更大的价值在于验证了一种“无痛加速”的范式——无需修改模型权重、无需牺牲质量,就能显著提升吞吐。这为低成本AI服务(如聊天机器人、内容生成)提供了直接可用的基础设施。

本文编译自Ars Technica