OpenAI与Broadcom发布Jalapeño芯片 推理成本目标降50%但训练仍用NVIDIA

OpenAI与Broadcom联合推出首款定制ASIC芯片Jalapeño,专为大语言模型推理设计,仅用9个月完成流片,计划2026年底部署,目标将单次响应成本降低约50%。该芯片将减少对NVIDIA的依赖,但训练环节仍使用NVIDIA GPU。文章分析其技术原理、量产时间表及行业影响。

OpenAI与Broadcom联合宣布首款专为大语言模型推理优化的定制ASIC芯片Jalapeño。该芯片借助OpenAI自身AI辅助,仅用9个月完成设计与流片,目标实现单次响应成本降低约50%,并减少对NVIDIA的依赖。计划2026年底部署,2027-2028年量产。

芯片设计与制造过程

Jalapeño采用定制ASIC架构,针对Transformer模型的注意力机制和前馈网络进行硬件优化。它将矩阵乘法运算单元与专用内存控制器集成,减少数据搬运延迟。OpenAI在设计阶段使用内部AI工具自动生成部分RTL代码,缩短了传统9-12个月的验证周期至9个月。

Broadcom负责流片环节,采用先进制程节点以平衡功耗与性能。测试数据显示,单芯片在典型推理负载下每瓦特性能比通用GPU提升约1.8倍。

推理效率提升原理

大语言模型推理的核心是重复执行矩阵运算。Jalapeño在硬件层面固定了常见算子,如多头注意力中的QKV投影,省去软件层调度开销。配合模型量化技术,8位整数运算取代浮点计算,进一步降低功耗。

单次响应成本降低50%的目标基于内部基准测试:相同模型在Jalapeño上的每token延迟从12毫秒降至6毫秒,电费与服务器折旧摊薄后达到预期。

与NVIDIA生态的差异

训练阶段仍完全依赖NVIDIA GPU集群。Jalapeño仅覆盖推理路径,无法执行反向传播所需的梯度计算。这意味着OpenAI需维持双轨硬件体系:训练用H100/H200集群,推理逐步迁移至自研ASIC。

2026年底首批Jalapeño服务器将部署在OpenAI自有数据中心,初期规模控制在数千片。2027年起Broadcom开始规模化生产,预计2028年出货量超过10万片。

行业供应链影响

定制ASIC进入推理市场后,NVIDIA在推理份额可能从当前85%逐步回落至70%左右。Broadcom借此获得稳定订单,巩固其在AI加速卡代工领域的地位。

其他云服务商已开始评估类似方案。亚马逊和谷歌此前已推出Inferentia和TPU。

未来部署路线图

  • 2026年Q4:内部小规模验证集群上线
  • 2027年:对外API部分流量切换至Jalapeño
  • 2028年:新模型推理默认使用ASIC,GPU仅保留高精度训练任务

成本下降直接反映到API定价。OpenAI计划在2027年将GPT系列推理价格下调30%,以扩大用户规模。

技术风险与限制

ASIC固定功能后,模型架构升级需重新流片。当前设计针对现有Transformer,若未来出现全新注意力变体,硬件兼容性将成为瓶颈。OpenAI表示将保留10-15%GPU容量作为热备。

功耗墙仍是长期挑战。单芯片峰值功耗控制在300瓦以内,但大规模集群仍需重新设计液冷系统。