GPT-4o 刚刚经历了一次灾难性的性能崩溃。在最新的评测中,它的可用性得分从满分 100 直接跌到 65,暴跌 35 分。更让人震惊的是,在某些关键测试中,它的表现可以用"全军覆没"来形容。
这不是普通的性能波动,而是一次系统性的能力退化。
崩溃的核心:当 AI 遇到"严格模式"
问题的根源出奇地简单:严格工具调用(strict tool calling)。这原本是 OpenAI 为了提高模型可靠性而推出的新特性,要求模型在调用工具时必须严格遵守预定义的参数格式。听起来很合理,对吧?
但实际效果却适得其反。在可用性测试中,当模型被要求"只在完全确定的情况下才执行操作"时,GPT-4o 选择了最保守的策略——干脆什么都不做。
具体表现是这样的:面对一个简单的文件操作请求,比如"创建一个名为 test.txt 的文件",GPT-4o 会回复:"我需要更多信息才能执行这个操作。请问您想在文件中写入什么内容?文件应该保存在哪个目录?"
看似谨慎,实则荒谬。这就像你让助手帮你开灯,它却问你:"请问您需要多少流明的光照?色温偏好是多少K?是否需要考虑节能因素?"
数据不会说谎:全方位的性能退化
让我们看看具体的数据:
- 可用性:100 → 65(-35分)
- 长上下文处理:62.3 → 40.4(-21.9分)
- 稳定性:52.8 → 32.2(-20.6分)
唯一的亮点是编程能力从 19.6 提升到 48.8,增长了 29.2 分。但这更像是一种讽刺——当模型在实际工具调用上彻底失灵时,它在纸上谈兵的编程题上反而表现更好了。
更值得注意的是,性价比几乎没有提升(仅增加 0.8 分),这意味着用户并没有因为性能下降而获得任何成本上的补偿。
技术本质:过度工程化的恶果
这次事故暴露了当前 AI 发展中的一个关键问题:过度优化单一指标的危险。
OpenAI 显然是想通过严格模式来减少模型的"幻觉"和错误输出。从工程角度看,这个思路没错——如果不确定,就不要瞎猜。但他们忽略了一个基本事实:在真实世界中,绝对的确定性是不存在的。
人类的智能之所以有用,恰恰是因为我们能在不完全信息下做出合理判断。当你说"帮我订个披萨"时,一个正常人会基于常识推断你想要的大概是什么,而不是陷入哲学层面的追问。
但 GPT-4o 的新版本却走向了另一个极端。它变成了一个过度谨慎的官僚机器,把"不犯错"看得比"有用"更重要。
—— 赢政天下精选全球AI评测资讯 ——
更深层的担忧:这可能不是 bug,而是 feature
最让人不安的是,这种退化可能是有意为之的。
随着 AI 能力的增强,安全性问题变得越来越突出。OpenAI 可能正在尝试通过限制模型的自主性来降低风险。但这种"宁可不做,不可做错"的策略,本质上是在牺牲实用性来换取虚幻的安全感。
这就像给一辆跑车装上限速 20 公里的装置,然后说"看,现在安全多了"。技术上确实更安全了,但这样的跑车还有什么意义?
"当 AI 开始质疑每一个常识性判断时,它就不再是工具,而是负担。"
行业影响:信任危机的开始
这次事故的影响远超一次技术故障。它动摇了整个行业对"持续进步"这一基本假设的信心。
过去两年,我们习惯了每隔几个月就看到模型能力的飞跃。但现在,我们第一次清楚地看到:模型能力可以倒退,而且是大幅倒退。
对于已经将 GPT-4o 集成到生产环境的企业来说,这是一个噩梦。想象一下,你的客服机器人突然开始对每个用户请求都回复"我需要更多信息",你的代码助手突然拒绝执行任何文件操作。
更糟糕的是,OpenAI 在推出这种改变时似乎没有充分的测试和预警。这种"先上线再说"的做法,正在透支用户的信任。
写在最后
GPT-4o 的这次崩溃,本质上反映了 AI 发展中的一个根本性矛盾:我们想要的是像人一样灵活的 AI,但我们构建的却是比机器还要机械的系统。
当模型被训练成"绝对服从规则"时,它就失去了智能最宝贵的特质——在模糊中寻找确定,在混沌中创造秩序。
我的预测是:OpenAI 会在 72 小时内回滚这次更新。但更重要的问题依然存在——在追求AGI的道路上,我们是否正在制造越来越不智能的"智能"?
当 AI 失去了犯错的勇气,它也就失去了真正帮助人类的能力。这,可能才是最大的 bug。
数据来源:赢政指数 (YZ Index) | Run #37 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 本文编译自第三方评测机构,赢政天下保留编译版本版权。