GPT-4o崩了：35分暴跌背后的严格模式陷阱

2026年03月22日 433 阅读 - 阅读来源: Winzheng Index

GPT-4o 可用性测试严格模式工具调用性能下降

GPT-4o 刚刚经历了一次灾难性的性能崩溃。在最新的评测中，它的可用性得分从满分 100 直接跌到 65，暴跌 35 分。更让人震惊的是，在某些关键测试中，它的表现可以用"全军覆没"来形容。

这不是普通的性能波动，而是一次系统性的能力退化。

问题的根源出奇地简单：严格工具调用（strict tool calling）。这原本是 OpenAI 为了提高模型可靠性而推出的新特性，要求模型在调用工具时必须严格遵守预定义的参数格式。听起来很合理，对吧？

但实际效果却适得其反。在可用性测试中，当模型被要求"只在完全确定的情况下才执行操作"时，GPT-4o 选择了最保守的策略——干脆什么都不做。

具体表现是这样的：面对一个简单的文件操作请求，比如"创建一个名为 test.txt 的文件"，GPT-4o 会回复："我需要更多信息才能执行这个操作。请问您想在文件中写入什么内容？文件应该保存在哪个目录？"

看似谨慎，实则荒谬。这就像你让助手帮你开灯，它却问你："请问您需要多少流明的光照？色温偏好是多少K？是否需要考虑节能因素？"

让我们看看具体的数据：

唯一的亮点是编程能力从 19.6 提升到 48.8，增长了 29.2 分。但这更像是一种讽刺——当模型在实际工具调用上彻底失灵时，它在纸上谈兵的编程题上反而表现更好了。

更值得注意的是，性价比几乎没有提升（仅增加 0.8 分），这意味着用户并没有因为性能下降而获得任何成本上的补偿。

这次事故暴露了当前 AI 发展中的一个关键问题：过度优化单一指标的危险。

OpenAI 显然是想通过严格模式来减少模型的"幻觉"和错误输出。从工程角度看，这个思路没错——如果不确定，就不要瞎猜。但他们忽略了一个基本事实：在真实世界中，绝对的确定性是不存在的。

人类的智能之所以有用，恰恰是因为我们能在不完全信息下做出合理判断。当你说"帮我订个披萨"时，一个正常人会基于常识推断你想要的大概是什么，而不是陷入哲学层面的追问。

但 GPT-4o 的新版本却走向了另一个极端。它变成了一个过度谨慎的官僚机器，把"不犯错"看得比"有用"更重要。

最让人不安的是，这种退化可能是有意为之的。

随着 AI 能力的增强，安全性问题变得越来越突出。OpenAI 可能正在尝试通过限制模型的自主性来降低风险。但这种"宁可不做，不可做错"的策略，本质上是在牺牲实用性来换取虚幻的安全感。

这就像给一辆跑车装上限速 20 公里的装置，然后说"看，现在安全多了"。技术上确实更安全了，但这样的跑车还有什么意义？

"当 AI 开始质疑每一个常识性判断时，它就不再是工具，而是负担。"

这次事故的影响远超一次技术故障。它动摇了整个行业对"持续进步"这一基本假设的信心。

过去两年，我们习惯了每隔几个月就看到模型能力的飞跃。但现在，我们第一次清楚地看到：模型能力可以倒退，而且是大幅倒退。

对于已经将 GPT-4o 集成到生产环境的企业来说，这是一个噩梦。想象一下，你的客服机器人突然开始对每个用户请求都回复"我需要更多信息"，你的代码助手突然拒绝执行任何文件操作。

更糟糕的是，OpenAI 在推出这种改变时似乎没有充分的测试和预警。这种"先上线再说"的做法，正在透支用户的信任。

GPT-4o 的这次崩溃，本质上反映了 AI 发展中的一个根本性矛盾：我们想要的是像人一样灵活的 AI，但我们构建的却是比机器还要机械的系统。

当模型被训练成"绝对服从规则"时，它就失去了智能最宝贵的特质——在模糊中寻找确定，在混沌中创造秩序。

我的预测是：OpenAI 会在 72 小时内回滚这次更新。但更重要的问题依然存在——在追求AGI的道路上，我们是否正在制造越来越不智能的"智能"？

当 AI 失去了犯错的勇气，它也就失去了真正帮助人类的能力。这，可能才是最大的 bug。

数据来源：赢政指数 (YZ Index) | Run #37 | 查看原始数据