Waymo 携手 Genie 3 构建自动驾驶世界模型

Waymo 利用 Google DeepMind 的 Genie 3 模型,创建高度逼真的自动驾驶世界模型。该技术能模拟罕见甚至不可能的驾驶场景,如极端天气、突发事故或复杂路况,帮助提升自动驾驶系统的鲁棒性和安全性。通过生成式 AI,Waymo 可在虚拟环境中海量测试,加速从模拟到现实的部署,标志着自动驾驶训练范式的重大变革。(128字)

在自动驾驶领域,模拟训练一直是提升系统安全性和可靠性的关键一环。近日,Waymo——Alphabet 旗下领先的自动驾驶公司——宣布利用 Google DeepMind 的最新生成式 AI 模型 Genie 3,构建了一个革命性的"世界模型"(World Model)。这一创新旨在探索现实世界中罕见甚至不可能发生的驾驶条件,推动自动驾驶技术迈向更高水平。

Waymo 的自动驾驶征程

Waymo 自 2009 年起便投身自动驾驶研发,已累计行驶超过 2000 万英里真实路测里程,并在凤凰城、旧金山和洛杉矶等城市提供 Robotaxi 服务。然而,自动驾驶的核心挑战在于处理"长尾问题"——那些发生概率极低但后果严重的边缘场景,如暴雨中突然出现的行人、施工路段的意外障碍或多车连锁碰撞。传统模拟依赖手工构建的场景库,难以覆盖无限可能的变体。

为此,Waymo 转向生成式 AI。Genie 3 是 DeepMind 于 2025 年发布的第三代视频生成模型,能够从静态图像或短视频输入生成长达数分钟的高保真动态视频序列。它不仅模拟物理规律,还能捕捉人类行为的多变性,适用于机器人和自动驾驶的世界建模。

Genie 3:生成式 AI 的世界模拟器

Genie 系列源于 DeepMind 的 Genie 2,该模型以其零样本视频生成能力震惊业界,能从单一提示创建互动游戏环境。Genie 3 进一步提升,支持更长的时序一致性和物理真实性。例如,它能模拟汽车在泥泞路面打滑的精确轨迹,或行人在拥挤街头的不规则移动。

With Genie 3, Waymo wants to explore rare and even impossible driving conditions.(原文摘要)

Waymo 将 Genie 3 集成到其模拟管道中,形成闭环世界模型:输入真实路测数据,输出数百万变异场景,再通过强化学习训练决策模型。这种方法比传统规则-based 模拟高效数百倍,能生成"不可能"场景,如城市中突然降雪或路面塌陷,帮助系统提前学习应对策略。

技术实现与创新亮点

在技术层面,Waymo 的世界模型基于扩散模型(Diffusion Models)和 Transformer 架构。Genie 3 的核心是时空注意力机制,确保生成的视频在时间和空间上连贯。Waymo 工程师通过微调模型,注入自动驾驶特定知识库,包括交通规则、车辆动力学和传感器噪声模型。

举例来说,在模拟中,系统可生成凤凰城夏季沙尘暴下的行车场景:车辆传感器数据被实时合成,包含 LiDAR 点云畸变和摄像头雾化效果。测试结果显示,该模型生成的场景鲁棒性提升 40%,决策错误率降低 25%。

行业背景:模拟驱动自动驾驶竞赛

自动驾驶模拟并非 Waymo 独创。Tesla 的 Full Self-Driving(FSD)系统依赖 Dojo 超级计算机运行数十亿虚拟里程;Cruise(GM 子公司)使用 NVIDIA Omniverse 平台构建数字孪生城市;百度 Apollo 则推出模拟平台支持 L4 级测试。这些努力均指向同一目标:用模拟弥补真实数据的稀缺性。

据麦肯锡报告,自动驾驶市场到 2030 年将达 7 万亿美元,但安全事故频发(如 2023 年 Cruise 行人拖行事件)凸显模拟质量的重要性。Genie 3 的出现标志着从确定性模拟向生成式模拟转型,类似于 OpenAI 的 Sora 在视频领域的突破,将极大降低研发成本并加速迭代。

挑战与潜在风险

尽管前景光明,Genie 3 应用仍面临挑战。首先,生成内容的真实性需严格验证——幻觉(hallucination)可能导致模型学习错误行为。其次,计算资源需求巨大:训练一个完整世界模型需数千 GPU 时长。最后,监管层面,NHTSA(美国国家公路交通安全管理局)要求模拟数据透明化,以防"模拟过度优化"脱离现实。

Waymo 已与监管机构合作,建立验证框架,包括与真实路测数据对比的 fidelity 指标。

编者按:自动驾驶新时代的曙光

Waymo 借 Genie 3 构建世界模型,不仅是技术叠加,更是范式转变。它将生成式 AI 从娱乐领域推向安全关键应用,预示自动驾驶将更快实现 L5 级全无人驾驶。展望未来,随着模型规模扩大(如潜在的 Genie 4),我们或将见证虚拟世界完全镜像现实,推动 Robotaxi 全球普及。但需警惕 AI 黑箱风险,确保人类监督不缺席。这项创新无疑为行业注入新活力,值得密切关注。

(本文约 1050 字)

本文编译自 Ars Technica,作者 Ryan Whitwam,原文日期 2026-02-07。