这家AI芯片初创公司获1.35亿美元融资,押注瓶颈是内存而非算力

这家AI芯片初创公司获1.35亿美元融资,押注瓶颈是内存而非算力
韩国芯片初创公司XCENA近日完成1.35亿美元B轮融资,投资方包括多家顶级风投和半导体巨头。该公司认为,当前AI发展的最大瓶颈并非算力不足,而是内存瓶颈——传统架构下GPU与内存之间的数据搬运速度远跟不上计算单元的吞吐能力。XCENA押注的新型近存计算(Near-Memory Computing)方案,试图通过重构芯片架构将内存与计算单元更紧密耦合,从而大幅降低延迟和功耗。本文深度解析这一技术路线背后的行业逻辑与潜在影响。

当整个AI行业都在疯狂追逐更强大的GPU、更大的计算集群时,一家来自韩国的芯片初创公司却提出了一个截然不同的判断:AI的真正瓶颈不在计算,而在内存。这家名为XCENA的公司刚刚完成1.35亿美元的B轮融资,投资方包括三星风投、SK海力士以及多家硅谷顶级VC。这笔融资不仅刷新了韩国芯片设计领域的融资纪录,更标志着行业对AI基础设施底层瓶颈的共识正在发生系统性转变。

内存墙:被忽视的算力杀手

众所周知,过去十年GPU算力遵循着摩尔定律的余晖飞速增长,但内存带宽的提升却远远落后。以NVIDIA最新Blackwell架构GPU为例,其浮点运算能力已突破20PFLOPS,但内存带宽仅约4TB/s——这意味着GPU需要数千次等待数据从内存搬运到计算单元。这种现象被业界称为“内存墙”(Memory Wall)。对于大规模AI推理和训练任务,尤其是超长上下文窗口的LLM模型,内存带宽和容量已经成为吞吐率的实际限制因子。

XCENA创始人兼CEO Kim Jae-hyun在公司官方博客中直言:“当所有人在争论需要多少张H100时,我们却看到服务器里有70%的电能消耗在数据的来回搬运上,而不是真正的计算。这是巨大的浪费。” 该公司的技术路线瞄准的就是这一痛点:通过创新的近存计算(Near-Memory Computing)架构,将内存控制器与计算核心集成在同一封装或同一硅中介层上,大幅缩短物理距离,从而将数据迁移延迟降低5-10倍,同时节约30%以上功耗。

编者按:近存计算并非全新概念。早在2017年,三星就展示过HBM2堆叠内存与逻辑芯片的集成方案,但受限于设计复杂度和成本,始终未能在主流AI芯片中普及。XCENA的差异化在于,其自主研发的“Memory-Aware Neural Engine”能够自动识别算子中数据复用模式,动态调整数据映射策略。据该公司内部测试,在GPT-4规模推理任务中,相比传统GPU方案,其芯片能将内存占用降低40%,延迟降低60%。

融资背后的技术赌注

这轮1.35亿美元融资由Samsung Catalyst Fund和SK海力士旗下投资平台牵头,新投资者包括硅谷知名风投A16Z和英国芯片设计公司ARM。值得注意的是,投资方中囊括了全球前两大存储芯片制造商——三星和SK海力士。这一信号被行业分析师解读为:存储巨头正在主动寻求控制AI芯片设计话语权,以改变过去多年在AI价值链条中只提供“标准品”的配角地位。

市场研究机构Counterpoint预计,到2028年,近存/存内计算相关芯片市场规模将超过300亿美元。XCENA计划用这笔资金加速其首款量产芯片“XC-1”的流片与客户验证,该芯片专为云侧推理场景设计,支持PCIe 5.0接口,旨在替代部分中低端AI推理卡。此外,部分资金将用于建立与超大规模云服务商的联合测试实验室。

挑战与隐忧

尽管前景诱人,XCENA面临的挑战不容小觑。首先是生态兼容性问题——现有的AI软件栈(如PyTorch、TensorFlow)大多针对GPU的CUDA生态优化,近存计算需要定制化算子编译器。XCENA宣称其自研的“XCompiler”能够自动转换主流模型,但实际落地往往需要大量手动调优。其次,与英伟达的CUDA护城河相比,任何新的硬件架构都需要面对生态迁移的巨大惯性。

行业观察:如果XCENA的愿景成立,那么未来AI数据中心的架构可能发生根本性重塑:不再是几万个GPU通过昂贵的NVLink互联,而是大量“内存增强型计算节点”以更低成本构成计算池。但正如多数芯片创业公司的宿命一样,从概念验证到规模化量产,再到被云厂商接受,是一条九死一生的长征路。

在融资消息公布后,业界反应不一。有分析师指出,近存计算最擅长的场景是内存带宽受限型任务(如推荐系统、图神经网络),但对于计算密集型的矩阵乘法(如MLP层),优势并不明显。不过,随着AI模型向多模态和超长上下文发展,内存瓶颈只会愈发突出——这给了XCENA以及其他存算一体玩家足够的时间窗口。

本文编译自TechCrunch