AI圆桌:机器能否学会理解世界?

AI巨头正试图突破大语言模型的局限,转向构建能理解外部世界的“世界模型”。本期圆桌对话中,MIT Technology Review总编Mat Honan、高级AI编辑Will Douglas Heaven及AI记者深入探讨了世界模型的最新进展、挑战与潜力。文章梳理了从LLM到世界模型的范式转变,并分析了这一趋势将如何重塑AI的未来。

从语言到世界:AI的下一个转折点

大语言模型(LLM)在过去两年里席卷了科技界,但它们真的理解世界吗?答案是否定的。LLM擅长根据海量文本预测下一个词,却缺乏对物理世界因果关系的深层认知。如今,AI公司正发起一场新的冲刺——构建能够理解外部世界的“世界模型”。MIT Technology Review最新一期的圆桌讨论,正是聚焦这一前沿话题。

总编Mat Honan指出,世界模型的概念并不新鲜,但近期一系列突破让它重新站上舞台中央。从Meta Yann LeCun的“联合嵌入预测架构”(JEPA),到DeepMind的“Dreamer”系列算法,再到OpenAI内部传闻中的“Q*”项目,业界共识逐渐清晰:下一个AI瓶颈不在于语言,而在于对现实世界的模拟与推理

“世界模型不是简单的视频生成器,它必须能预测行动的结果,理解物体的物理属性,甚至推测他人的意图。”——高级AI编辑Will Douglas Heaven

AI记者则补充了来自实验室的案例:研究人员用世界模型训练机器人,仅需少量真实数据就能完成复杂抓取任务。这与LLM“耗尽文本数据”的现状形成鲜明对比——世界模型可以从无限的自监督交互中学习,潜力巨大。

为什么LLM不够用?

LLM的“下一个词预测”训练模式,本质上是在拟合人类语言分布。当被问及“如果我把杯子推下桌子会发生什么”,LLM能给出正确答案,但这是基于语料库中概率较高的关联,而非真正的因果关系。一旦遇到常识性错误或物理悖论,LLM就会暴露软肋。更根本的问题是,语言是世界的抽象符号,而抽象本身会丢失大量细节——比如物体的质感、光的折射、力的传递。

世界模型则试图构建一个可交互的内部表征。以自动驾驶为例,一辆搭载世界模型的汽车可以在模拟环境中预演各种突发状况,从而安全地规划路线。这种能力是纯文本模型无法提供的。正如讨论中提到的,世界模型是通往通用人工智能(AGI)的一块关键拼图

编者按:世界模型的三重挑战

圆桌讨论并未回避现实困难。首先,计算成本惊人:对物理世界进行高精度建模需要海量算力,目前即便最先进的视频生成模型(如Sora)也远未达到可靠程度。其次,评估标准缺失:我们如何判断一个模型真的“理解”了世界?准确率、一致性、泛化能力?业界尚无统一基准。第三,数据与隐私:真实世界的交互数据往往涉及敏感信息,且获取成本远高于文本。

不过,乐观派认为,世界模型的进步或许会比预想的快。从LLM的缩放定律(Scaling Law)经验来看,只要投入足够的计算资源和数据,性能会持续提升。如果世界模型能复制这一曲线,未来十年内我们或许会看到能进行基础物理推理的AI系统。

“我们正处于一个从‘语言层’到‘物理层’的跃迁时刻。这不是取代LLM,而是补充它。”——总编Mat Honan

文章最后,编辑们一致认为:世界模型的研究不应仅停留在学术圈。科技巨头需要开放合作,制定伦理边界,并警惕潜在滥用——例如被用于生成虚假的物理证据或高仿真深度伪造。

本文编译自MIT Technology Review