这家AI芯片初创公司获1.35亿美元融资，押注瓶颈是内存而非算力

2026年05月29日 347 约5分钟 TechCrunch

AI芯片存算一体内存瓶颈 XCENA 近存计算

当整个AI行业都在疯狂追逐更强大的GPU、更大的计算集群时，一家来自韩国的芯片初创公司却提出了一个截然不同的判断：AI的真正瓶颈不在计算，而在内存。这家名为XCENA的公司刚刚完成1.35亿美元的B轮融资，投资方包括三星风投、SK海力士以及多家硅谷顶级VC。这笔融资不仅刷新了韩国芯片设计领域的融资纪录，更标志着行业对AI基础设施底层瓶颈的共识正在发生系统性转变。

内存墙：被忽视的算力杀手

众所周知，过去十年GPU算力遵循着摩尔定律的余晖飞速增长，但内存带宽的提升却远远落后。以NVIDIA最新Blackwell架构GPU为例，其浮点运算能力已突破20PFLOPS，但内存带宽仅约4TB/s——这意味着GPU需要数千次等待数据从内存搬运到计算单元。这种现象被业界称为“内存墙”（Memory Wall）。对于大规模AI推理和训练任务，尤其是超长上下文窗口的LLM模型，内存带宽和容量已经成为吞吐率的实际限制因子。

XCENA创始人兼CEO Kim Jae-hyun在公司官方博客中直言：“当所有人在争论需要多少张H100时，我们却看到服务器里有70%的电能消耗在数据的来回搬运上，而不是真正的计算。这是巨大的浪费。” 该公司的技术路线瞄准的就是这一痛点：通过创新的近存计算（Near-Memory Computing）架构，将内存控制器与计算核心集成在同一封装或同一硅中介层上，大幅缩短物理距离，从而将数据迁移延迟降低5-10倍，同时节约30%以上功耗。

编者按：近存计算并非全新概念。早在2017年，三星就展示过HBM2堆叠内存与逻辑芯片的集成方案，但受限于设计复杂度和成本，始终未能在主流AI芯片中普及。XCENA的差异化在于，其自主研发的“Memory-Aware Neural Engine”能够自动识别算子中数据复用模式，动态调整数据映射策略。据该公司内部测试，在GPT-4规模推理任务中，相比传统GPU方案，其芯片能将内存占用降低40%，延迟降低60%。

融资背后的技术赌注

这轮1.35亿美元融资由Samsung Catalyst Fund和SK海力士旗下投资平台牵头，新投资者包括硅谷知名风投A16Z和英国芯片设计公司ARM。值得注意的是，投资方中囊括了全球前两大存储芯片制造商——三星和SK海力士。这一信号被行业分析师解读为：存储巨头正在主动寻求控制AI芯片设计话语权，以改变过去多年在AI价值链条中只提供“标准品”的配角地位。

市场研究机构Counterpoint预计，到2028年，近存/存内计算相关芯片市场规模将超过300亿美元。XCENA计划用这笔资金加速其首款量产芯片“XC-1”的流片与客户验证，该芯片专为云侧推理场景设计，支持PCIe 5.0接口，旨在替代部分中低端AI推理卡。此外，部分资金将用于建立与超大规模云服务商的联合测试实验室。

挑战与隐忧

尽管前景诱人，XCENA面临的挑战不容小觑。首先是生态兼容性问题——现有的AI软件栈（如PyTorch、TensorFlow）大多针对GPU的CUDA生态优化，近存计算需要定制化算子编译器。XCENA宣称其自研的“XCompiler”能够自动转换主流模型，但实际落地往往需要大量手动调优。其次，与英伟达的CUDA护城河相比，任何新的硬件架构都需要面对生态迁移的巨大惯性。

行业观察：如果XCENA的愿景成立，那么未来AI数据中心的架构可能发生根本性重塑：不再是几万个GPU通过昂贵的NVLink互联，而是大量“内存增强型计算节点”以更低成本构成计算池。但正如多数芯片创业公司的宿命一样，从概念验证到规模化量产，再到被云厂商接受，是一条九死一生的长征路。

在融资消息公布后，业界反应不一。有分析师指出，近存计算最擅长的场景是内存带宽受限型任务（如推荐系统、图神经网络），但对于计算密集型的矩阵乘法（如MLP层），优势并不明显。不过，随着AI模型向多模态和超长上下文发展，内存瓶颈只会愈发突出——这给了XCENA以及其他存算一体玩家足够的时间窗口。

本文编译自TechCrunch

内存墙：被忽视的算力杀手

融资背后的技术赌注

挑战与隐忧

相关推荐