GPT-o3在今日Smoke评测中,代码执行维度直接从90.00崩到47.50,主榜整体下滑18分至58.08。这一数字把模型推到了必须给出解释的境地。
数据本身已说明问题
Smoke评测每日仅10题,2题/维度,单日标准差本就偏大。但代码执行维度单日下跌42.5分,工程判断维度同时从50.00跌至10.00,两者叠加后主榜才出现-18分的净损失。材料约束反而上涨12分,任务表达持平,说明问题集中在需要精确推理与多步执行的任务上。
抽签波动还是真实退化
如果仅看单日,题目难度抽签仍是最大可能解释。但连续两维出现40分级别的下跌,概率已低于日常波动区间。更关键的是,工程判断(侧榜,AI辅助评估)也同步崩盘,这通常意味着模型在需要隐式约束与权衡的场景中,输出一致性显著下降。
近期OpenAI正处于o系列模型快速迭代窗口,o3若已进入内部微调或蒸馏阶段,推理路径被压缩后,代码执行的鲁棒性最容易首先受损。这与本次评测中“执行正确率断崖”高度吻合。
是否需要重点关注
需要。Smoke评测虽为快照,但当核心能力维度出现超过40分的单日跌幅,且伴随工程判断维度同步恶化时,已不能简单归因于运气。建议在接下来3-5个交易日内持续追踪同一模型,若代码执行维度无法回到75分以上区间,则基本可判定为真实能力回撤而非抽题噪声。
目前GPT-o3的诚信评级仍为pass,说明尚未出现明显幻觉或越界问题,但这并不构成对执行能力的保护。执行能力一旦退化,短期内难以通过安全对齐快速修复。
42.5分不是运气,是信号。
数据来源:赢政指数 (YZ Index) | Run #129 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接