推测解码 - AI资讯

谷歌Gemma 4开源模型采用推测解码，速度提升3倍

谷歌最新发布的Gemma 4开源AI模型引入了“推测解码”（Speculative Decoding）技术，通过辅助模型预先生成多个令牌再由主模型并行验证，在保持输出质量的同时将推理速度提升最高3倍。这一创新将两个模型合并为一个稀疏专家混合架构，降低了通信开销，为大模型开源社区提供了兼具高效与开放性的新选择。

SpecBundle与SpecForge v0.2：生产级推测解码模型与框架重磅发布

SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴，推出SpecBundle（Phase 1），这是基于大规模数据集训练的生产级EAGLE3模型检查点集合，旨在提升推测解码的可用性和实际性能，第一阶段聚焦指令微调模型。同时，SpecForge v0.2带来重大系统升级，包括全面重构以提升易用性，并支持多执行后端，进一步增强可扩展性和生产就绪度。该举措解决开源社区中推测解码工具匮乏、高质量草稿模型稀缺以及训练数据规模不足等问题，推动EAGLE3等SOTA方法在本地和企业部署中的广泛应用。（128字）

推测解码 (共2篇)

谷歌Gemma 4开源模型采用推测解码，速度提升3倍

SpecBundle与SpecForge v0.2：生产级推测解码模型与框架重磅发布