初创公司宣称突破LLM十年数学瓶颈

2026年06月19日 16 约5分钟 MIT Technology Review

LLM瓶颈亚二次方注意力 Subquadratic AI效率突破 Transformer优化

一石激起千层浪：神秘初创的豪言

2026年6月19日，迈阿密AI初创公司Subquadratic结束长达数年的隐身状态，宣布了一个令业界震惊的消息：他们攻克了大型语言模型（LLM）发展道路上持续近十年的核心数学瓶颈。所谓“瓶颈”，指的是Transformer架构中自注意力机制的二次方时间复杂度（O(n²)），它让模型在处理长文本时计算成本呈指数级增长，成为制约LLM能力扩展的关键障碍。

Subquadratic的声明非常大胆，但最初几乎没有任何技术细节。业界对此反应不一，许多专家持怀疑态度，认为这不过是另一场营销噱头。毕竟，近十年来无数研究团队试图用稀疏注意力、线性注意力或核函数方法绕过O(n²)限制，却都未能实现真正意义上的颠覆性突破。

“如果Subquadratic真的解决了亚二次方瓶颈，那将是改写AI基础架构的大事。”——卡耐基梅隆大学机器学习教授Zico Kolter

从质疑到关注：证据浮出水面

在最初的缄默之后，Subquadratic开始陆续公开部分证据。据该公司提交的预印本论文和内部测试数据显示，他们提出的新注意力机制复杂度为O(n·log n)，理论上能够在处理百万级token序列时保持可控的计算成本。相比之下，标准Transformer在序列长度超过10万时已近乎不可用。

Subquadratic的CEO兼联合创始人Elena Rivas在博客中解释：“我们并非单纯优化现有架构，而是从数学上重新定义了‘注意力’的底层运算。简单来说，我们避免了每个token都要与所有其他token进行比较的暴力方式，而是通过一种概率性的全局结构化近似来捕捉长距离依赖。”不过，论文和配套代码尚未完全开放，许多专家呼吁独立复现验证。

行业背景：为何O(n²)成为“天花板”

2017年Transformer架构问世后，自注意力机制带来的二次方复杂度很快被认定为痛点。为了扩展上下文窗口，谷歌、OpenAI和Meta等巨头分别采用了稀疏注意力（Longformer、BigBird）、线性注意力（Performer、FlashAttention）或状态空间模型（Mamba）等方案，但均在精度或通用性上做出妥协。业界普遍认为，真正的“圣杯”是一种既能保留全注意力的表达能力，又能实现亚二次方运算的数学方案。

值得注意的是，就在Subquadratic公布消息的同一周，DeepMind的团队也在arXiv上发布了一篇论文，提出一种名为“HyperAttention”的近似方法。然而Subquadratic声称他们的方法并非近似，而是精确计算的数学变形——这引起了更大争议。

编者按：如果Subquadratic的声称属实，那么LLM的上下文长度将从目前的几十万token直接跃升至数百万甚至上亿级别，这对长文档理解、对话记忆、代码库分析等场景具有革命性意义。但鉴于过去类似声明（如2024年某公司声称破解了Transformer推理速度问题）最终被证实为夸大，我们建议保持谨慎乐观。数学突破需要严格的同行评审和社区复现，而Subquadratic至今拒绝开源核心算法，这让不少研究者感到不安。

影响与展望：一场可能到来的范式变革

假设Subquadratic的技术通过验证，其影响将远超现有的AI模型训练和推理。首先，长上下文LLM将更自然地处理小说、法律合同、医疗记录等超长文本，无需分块或上下文压缩。其次，亚二次方复杂度可能降低硬件门槛，小型团队也能训练拥有百万上下文窗口的大模型，从而打破大公司的算力垄断。第三，这一突破可能引发连锁反应，推动更多基础研究回归数学本质——比如重新审视Transformer与RNN的关系。

当然，风险同样存在。如果Subquadratic的数学证明存在隐含假设（例如只适用于特定数据分布），那么实际部署中可能遇到意想不到的退化。此外，即使复杂度降低，从理论到工程落地仍需克服内存带宽、分布式通信等实际障碍。参考Meta的LLaMA-3在优化推理时遇到的大量工程难题，Subquadratic的团队规模（仅20余人）能否支撑起完整的系统层优化仍是未知数。

截至发稿时，Subquadratic表示将在下月举办的NeurIPS 2026研讨会上展示详细方案，并开放部分基准测试结果。MIT Technology Review将持续关注这一争议性宣称的最新进展。或许，我们正站在LLM能力跃迁的前夜，又或许这只是一场迷人的数学幻觉。唯一确定的是，AI研究的节奏永远不会放缓。

本文编译自MIT Technology Review