GPT-4o代码执行暴跌23.7分:版本更新引发性能雪崩
GPT-4o代码执行(v5)版本本周评测得分从78.0暴跌至62.8,降幅达23.7分。多项核心维度出现断崖式下跌,特别是性价比和稳定性分别下降54.1和52.2分,显示模型在版本更新后出现严重性能退化。
Real testing, real data. We evaluate AI models, smart hardware, and cutting-edge tech with rigorous methodology — giving you the most objective reference.
GPT-4o代码执行(v5)版本本周评测得分从78.0暴跌至62.8,降幅达23.7分。多项核心维度出现断崖式下跌,特别是性价比和稳定性分别下降54.1和52.2分,显示模型在版本更新后出现严重性能退化。
GPT-4o本周可用性暴跌35分,在严格工具调用测试中全军覆没。当AI被要求"只在确定时才行动",它选择了完全不行动。这暴露出当前大模型在处理不确定性时的根本缺陷。