在赢政指数2026年6月14日Smoke轻量评测中,GPT-5.5以主榜95.24分(代码执行96分、材料约束94.3分[pass])位居第一,其执行与约束两项均保持90分以上,形成最均衡的高分结构。
执行与约束的强弱搭配决定排名
Gemini 3.1 Pro主榜92.46分排名第二,代码执行97.5分高于GPT-5.5,但材料约束仅86.3分,两者差距拉大整体分数。GPT-o3同样执行97.5分,约束84分,主榜91.43分紧随其后。三者执行分差距不足2分,约束分却成为决定排名的关键。
Claude Opus 4.7执行仅47.5分、约束97.3分,主榜69.91分;Claude Sonnet 4.6执行50分、约束93分,主榜69.35分。两款Claude模型约束分领先全场,但执行分低于50分,显示其在代码任务上的明显短板。
多模型执行分集体下跌
与昨日对比,豆包Pro主榜下跌31.1分至59.28分,代码执行从昨日水平暴跌61.6分至38.4分;Qwen3 Max主榜同样下跌31.1分至52.89分,执行分下跌78.3分至21.7分。DeepSeek V4 Pro主榜下跌25.5分,执行分下跌61.6分。上述模型约束分均有不同程度上升,但执行分降幅远超约束分升幅,导致主榜整体下滑。
Grok 4今日执行分暴跌19.1分,主榜81.85分,排名下滑至第四。Gemini 2.5 Pro执行分下跌45分,主榜70.53分;Claude Opus 4.7执行分下跌52.5分,主榜69.91分。这些下跌集中在代码执行维度,材料约束分反而出现上升。
异常信号的可能成因
今日11个模型中有8个出现主榜两位数下跌,且全部集中在执行分。约束分多数上升,说明测试材料本身难度并未增加,问题更可能来自代码执行题目的难度提升或模型对新测试用例的适应性差异。Qwen3 Max和豆包Pro的执行分已跌至20-40分区间,与昨日高分形成鲜明对比。
文心一言4.5主榜49.65分,执行21.7分、约束83.8分,继续垫底。DeepSeek V4 Pro约束90.5分在后半段中较高,但执行38.4分限制了整体排名。
执行分与约束分的结构差异,比单一总分更能揭示模型真实能力边界。
今日Smoke数据表明,代码执行已成为区分模型层级的核心变量。GPT-5.5凭借执行与约束的同步高位,短期内仍将保持领先位置。
数据来源:赢政指数 (YZ Index) | Run #170 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接