GPT-o3代码执行暴跌42.5分，主榜单日崩18分

2026年05月24日 486 阅读 - 阅读来源: Winzheng Index

GPT-o3 代码执行 Smoke评测模型波动 OpenAI

GPT-o3在今日Smoke评测中，代码执行维度直接从90.00崩到47.50，主榜整体下滑18分至58.08。这一数字把模型推到了必须给出解释的境地。

Smoke评测每日仅10题，2题/维度，单日标准差本就偏大。但代码执行维度单日下跌42.5分，工程判断维度同时从50.00跌至10.00，两者叠加后主榜才出现-18分的净损失。材料约束反而上涨12分，任务表达持平，说明问题集中在需要精确推理与多步执行的任务上。

如果仅看单日，题目难度抽签仍是最大可能解释。但连续两维出现40分级别的下跌，概率已低于日常波动区间。更关键的是，工程判断（侧榜，AI辅助评估）也同步崩盘，这通常意味着模型在需要隐式约束与权衡的场景中，输出一致性显著下降。

近期OpenAI正处于o系列模型快速迭代窗口，o3若已进入内部微调或蒸馏阶段，推理路径被压缩后，代码执行的鲁棒性最容易首先受损。这与本次评测中“执行正确率断崖”高度吻合。

需要。Smoke评测虽为快照，但当核心能力维度出现超过40分的单日跌幅，且伴随工程判断维度同步恶化时，已不能简单归因于运气。建议在接下来3-5个交易日内持续追踪同一模型，若代码执行维度无法回到75分以上区间，则基本可判定为真实能力回撤而非抽题噪声。

目前GPT-o3的诚信评级仍为pass，说明尚未出现明显幻觉或越界问题，但这并不构成对执行能力的保护。执行能力一旦退化，短期内难以通过安全对齐快速修复。

42.5分不是运气，是信号。