AI圆桌：机器能否学会理解世界？

2026年05月22日 365 约4分钟 MIT Technology Review

世界模型大语言模型局限人工智能前沿 AI理解世界智能推理

从语言到世界：AI的下一个转折点

大语言模型（LLM）在过去两年里席卷了科技界，但它们真的理解世界吗？答案是否定的。LLM擅长根据海量文本预测下一个词，却缺乏对物理世界因果关系的深层认知。如今，AI公司正发起一场新的冲刺——构建能够理解外部世界的“世界模型”。MIT Technology Review最新一期的圆桌讨论，正是聚焦这一前沿话题。

总编Mat Honan指出，世界模型的概念并不新鲜，但近期一系列突破让它重新站上舞台中央。从Meta Yann LeCun的“联合嵌入预测架构”（JEPA），到DeepMind的“Dreamer”系列算法，再到OpenAI内部传闻中的“Q*”项目，业界共识逐渐清晰：下一个AI瓶颈不在于语言，而在于对现实世界的模拟与推理。

“世界模型不是简单的视频生成器，它必须能预测行动的结果，理解物体的物理属性，甚至推测他人的意图。”——高级AI编辑Will Douglas Heaven

AI记者则补充了来自实验室的案例：研究人员用世界模型训练机器人，仅需少量真实数据就能完成复杂抓取任务。这与LLM“耗尽文本数据”的现状形成鲜明对比——世界模型可以从无限的自监督交互中学习，潜力巨大。

为什么LLM不够用？

LLM的“下一个词预测”训练模式，本质上是在拟合人类语言分布。当被问及“如果我把杯子推下桌子会发生什么”，LLM能给出正确答案，但这是基于语料库中概率较高的关联，而非真正的因果关系。一旦遇到常识性错误或物理悖论，LLM就会暴露软肋。更根本的问题是，语言是世界的抽象符号，而抽象本身会丢失大量细节——比如物体的质感、光的折射、力的传递。

世界模型则试图构建一个可交互的内部表征。以自动驾驶为例，一辆搭载世界模型的汽车可以在模拟环境中预演各种突发状况，从而安全地规划路线。这种能力是纯文本模型无法提供的。正如讨论中提到的，世界模型是通往通用人工智能（AGI）的一块关键拼图。

编者按：世界模型的三重挑战

圆桌讨论并未回避现实困难。首先，计算成本惊人：对物理世界进行高精度建模需要海量算力，目前即便最先进的视频生成模型（如Sora）也远未达到可靠程度。其次，评估标准缺失：我们如何判断一个模型真的“理解”了世界？准确率、一致性、泛化能力？业界尚无统一基准。第三，数据与隐私：真实世界的交互数据往往涉及敏感信息，且获取成本远高于文本。

不过，乐观派认为，世界模型的进步或许会比预想的快。从LLM的缩放定律（Scaling Law）经验来看，只要投入足够的计算资源和数据，性能会持续提升。如果世界模型能复制这一曲线，未来十年内我们或许会看到能进行基础物理推理的AI系统。

“我们正处于一个从‘语言层’到‘物理层’的跃迁时刻。这不是取代LLM，而是补充它。”——总编Mat Honan

文章最后，编辑们一致认为：世界模型的研究不应仅停留在学术圈。科技巨头需要开放合作，制定伦理边界，并警惕潜在滥用——例如被用于生成虚假的物理证据或高仿真深度伪造。

本文编译自MIT Technology Review

从语言到世界：AI的下一个转折点

为什么LLM不够用？

编者按：世界模型的三重挑战

相关推荐