亚马逊近日宣布,其云计算部门AWS在数据中心内部网络技术上取得一项突破性进展——一种名为"OptiLink"的光电混合互连方案,成功将大规模集群中服务器之间的数据传输速率提升至每秒800Gbps,同时将端到端延迟控制在90纳秒以内。这一成果直接回应了困扰行业多年的"数据移动瓶颈":随着AI模型参数突破万亿级别,传统电子交换网络已无法满足日益增长的带宽和低延迟需求。
从电到光:数据中心网络的全新范式
据亚马逊内部技术白皮书披露,该方案的核心在于用集成光子芯片取代传统铜缆和电交换设备。每个计算节点通过微光学收发器直接连接至全光交叉矩阵,绕过了多级电交换机带来的信号衰减和功耗问题。亚马逊首席网络架构师在官方博文中表示:"我们不再将网络视为计算的外部附加,而是将其作为计算本身的一部分。"
“这就像是给数据中心装上了光纤神经——信息不是从一个节点跳到另一个节点,而是像光本身一样流动。”——亚马逊AWS网络工程副总裁
当前业界标准数据中心的网络利用率通常不足40%,而Amazon声称OptiLink在超载情况下仍能保持85%以上的有效吞吐量,这得益于其内置的分布式智能拥塞控制算法,该算法能在微秒级别动态调整数据流路径,避免热点形成。
AI训练与实时推理的双重解放
这一技术突破对AI领域意义尤为重大。目前大语言模型训练往往需要数千张GPU同步协作,而梯度同步常常因网络延迟成为计算流水线中的"暗点"。OptiLink将梯度同步时间缩短了80%,使得千卡集群的线性扩展效率从60%跃升至95%。同时,在自动驾驶、金融交易等实时推理场景中,端到端延迟的降低直接转化为更快的决策响应。
亚马逊此举并非孤立事件。微软、谷歌等竞争对手也在积极研发类似的光网络方案,但尚未有商业化落地的公开报道。业内分析人士指出,亚马逊选择在此时宣布这一进展,很可能是为了在日趋白热化的云计算市场争夺AI工作负载领域的定价权和性能话语权。
编者按:数据中心基础设施的下一个十年
长期以来,摩尔定律的放缓使得计算单元的进步逐渐接近物理极限,而网络却成为制约系统性能的"短板"。亚马逊的OptiLink方案表面上是一道技术问题的答案,但深层次看,它揭示了未来数据中心设计的基本哲学转变:从以计算为中心,转向以连接为中心。
不过,这一技术的实际大规模部署仍面临挑战。定制的光子芯片良率和成本目前仍高于传统方案,且需要重新设计数据中心的热管理和物理布局。但考虑到亚马逊在资本投入和技术迭代上的决心,预计三年内该技术将首先在AWS的旗舰AI超算集群中落地,并逐步向边缘节点渗透。
本文编译自WIRED
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接