Claude Opus 4.7 主榜 100 分登顶,豆包 Pro 暴跌 13.8 分暴露执行短板

2026年6月29日赢政指数 Smoke 轻量评测中,Claude Opus 4.7 以主榜 100 分、执行 100 分、约束 100 分 [pass] 位居第一,执行与约束两项均达到满分。

满分模型的结构特征

Claude Opus 4.7 的 0.55×100 + 0.45×100 组合直接拉到 100 分。Grok 4 执行同样 100 分,但约束 96.7 分,主榜 98.52 分,差距仅在材料约束环节。DeepSeek V4 Pro 与 Claude Sonnet 4.6 执行同为 100 分,约束分别为 95.4 分和 95.2 分,主榜分差不足 0.1 分。

昨日执行大跳与今日结构

Claude Opus 4.7 昨日执行仅 50 分,今日直接拉到 100 分,主榜上涨 28.5 分。Claude Sonnet 4.6 执行同样从 50 分升至 100 分,主榜上涨 27.3 分。两模型约束分未出现同等幅度波动,说明本次提升主要来自代码执行维度。

豆包 Pro 异常下跌分析

豆包 Pro 主榜 84.77 分,执行 75 分、约束 96.7 分,较昨日下跌 13.8 分。其执行分远低于前五名 95 分以上的水平,约束分却接近 Grok 4 的 96.7 分。低执行权重占比 0.55,导致整体主榜被明显拉低。

其他模型的执行约束搭配

Gemini 3.1 Pro 执行 95 分、约束 95 分,主榜 95 分,结构均衡。Qwen3 Max 执行 87.7 分、约束 95.2 分,主榜 91.08 分,约束优于执行。文心一言 4.5 执行 89.6 分、约束 86.5 分,主榜 88.21 分,两项均处于中游。Gemini 2.5 Pro 执行 75 分、约束 100 分,主榜 86.25 分,约束满分但执行拖累明显。

Qwen3 Max 诚信评级从 warn 转为 pass,主榜上涨 21.1 分,执行从昨日水平提升 37.7 分。文心一言 4.5 主榜上涨 26.7 分,执行提升 54 分,约束下降 6.7 分。

Claude Opus 4.7 今日 100 分满分,豆包 Pro 执行 75 分的结构短板仍在继续拉大差距。

数据来源:赢政指数 (YZ Index) | Run #203 | 查看原始数据