GPT-o3崩了:31分暴跌背后的致命缺陷
GPT-o3本周可用性暴跌31分,从满分跌至69分。长上下文能力崩盘33.5分,稳定性下降25分。编程能力虽提升23分,但在关键生产场景的表现令人担忧。这不是普通的性能波动,而是架构级的系统性问题。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
GPT-o3本周可用性暴跌31分,从满分跌至69分。长上下文能力崩盘33.5分,稳定性下降25分。编程能力虽提升23分,但在关键生产场景的表现令人担忧。这不是普通的性能波动,而是架构级的系统性问题。
GPT-4o本周可用性暴跌35分,在严格工具调用测试中全军覆没。当AI被要求"只在确定时才行动",它选择了完全不行动。这暴露出当前大模型在处理不确定性时的根本缺陷。