OpenAI与Broadcom发布Jalapeño芯片推理成本目标降50%但训练仍用NVIDIA

2026年06月27日 24 约3分钟 News Factory 已核实

AI芯片 OpenAI Broadcom 推理优化 NVIDIA依赖

OpenAI与Broadcom联合宣布首款专为大语言模型推理优化的定制ASIC芯片Jalapeño。该芯片借助OpenAI自身AI辅助，仅用9个月完成设计与流片，目标实现单次响应成本降低约50%，并减少对NVIDIA的依赖。计划2026年底部署，2027-2028年量产。

Jalapeño采用定制ASIC架构，针对Transformer模型的注意力机制和前馈网络进行硬件优化。它将矩阵乘法运算单元与专用内存控制器集成，减少数据搬运延迟。OpenAI在设计阶段使用内部AI工具自动生成部分RTL代码，缩短了传统9-12个月的验证周期至9个月。

Broadcom负责流片环节，采用先进制程节点以平衡功耗与性能。测试数据显示，单芯片在典型推理负载下每瓦特性能比通用GPU提升约1.8倍。

大语言模型推理的核心是重复执行矩阵运算。Jalapeño在硬件层面固定了常见算子，如多头注意力中的QKV投影，省去软件层调度开销。配合模型量化技术，8位整数运算取代浮点计算，进一步降低功耗。

单次响应成本降低50%的目标基于内部基准测试：相同模型在Jalapeño上的每token延迟从12毫秒降至6毫秒，电费与服务器折旧摊薄后达到预期。

训练阶段仍完全依赖NVIDIA GPU集群。Jalapeño仅覆盖推理路径，无法执行反向传播所需的梯度计算。这意味着OpenAI需维持双轨硬件体系：训练用H100/H200集群，推理逐步迁移至自研ASIC。

2026年底首批Jalapeño服务器将部署在OpenAI自有数据中心，初期规模控制在数千片。2027年起Broadcom开始规模化生产，预计2028年出货量超过10万片。

定制ASIC进入推理市场后，NVIDIA在推理份额可能从当前85%逐步回落至70%左右。Broadcom借此获得稳定订单，巩固其在AI加速卡代工领域的地位。

其他云服务商已开始评估类似方案。亚马逊和谷歌此前已推出Inferentia和TPU。

成本下降直接反映到API定价。OpenAI计划在2027年将GPT系列推理价格下调30%，以扩大用户规模。

ASIC固定功能后，模型架构升级需重新流片。当前设计针对现有Transformer，若未来出现全新注意力变体，硬件兼容性将成为瓶颈。OpenAI表示将保留10-15%GPU容量作为热备。

功耗墙仍是长期挑战。单芯片峰值功耗控制在300瓦以内，但大规模集群仍需重新设计液冷系统。

相关推荐