Claude Opus 4.7 主榜 100 分登顶，豆包 Pro 暴跌 13.8 分暴露执行短板

2026年06月29日 18 阅读 - 阅读来源: Winzheng Index

Claude Opus 4.7 豆包 Pro 执行约束 Smoke 评测主榜波动

2026年6月29日赢政指数 Smoke 轻量评测中，Claude Opus 4.7 以主榜 100 分、执行 100 分、约束 100 分 [pass] 位居第一，执行与约束两项均达到满分。

满分模型的结构特征

Claude Opus 4.7 的 0.55×100 + 0.45×100 组合直接拉到 100 分。Grok 4 执行同样 100 分，但约束 96.7 分，主榜 98.52 分，差距仅在材料约束环节。DeepSeek V4 Pro 与 Claude Sonnet 4.6 执行同为 100 分，约束分别为 95.4 分和 95.2 分，主榜分差不足 0.1 分。

昨日执行大跳与今日结构

Claude Opus 4.7 昨日执行仅 50 分，今日直接拉到 100 分，主榜上涨 28.5 分。Claude Sonnet 4.6 执行同样从 50 分升至 100 分，主榜上涨 27.3 分。两模型约束分未出现同等幅度波动，说明本次提升主要来自代码执行维度。

豆包 Pro 异常下跌分析

豆包 Pro 主榜 84.77 分，执行 75 分、约束 96.7 分，较昨日下跌 13.8 分。其执行分远低于前五名 95 分以上的水平，约束分却接近 Grok 4 的 96.7 分。低执行权重占比 0.55，导致整体主榜被明显拉低。

其他模型的执行约束搭配

Gemini 3.1 Pro 执行 95 分、约束 95 分，主榜 95 分，结构均衡。Qwen3 Max 执行 87.7 分、约束 95.2 分，主榜 91.08 分，约束优于执行。文心一言 4.5 执行 89.6 分、约束 86.5 分，主榜 88.21 分，两项均处于中游。Gemini 2.5 Pro 执行 75 分、约束 100 分，主榜 86.25 分，约束满分但执行拖累明显。

Qwen3 Max 诚信评级从 warn 转为 pass，主榜上涨 21.1 分，执行从昨日水平提升 37.7 分。文心一言 4.5 主榜上涨 26.7 分，执行提升 54 分，约束下降 6.7 分。

Claude Opus 4.7 今日 100 分满分，豆包 Pro 执行 75 分的结构短板仍在继续拉大差距。

数据来源：赢政指数 (YZ Index) | Run #203 | 查看原始数据

Claude Opus 4.7 主榜 100 分登顶，豆包 Pro 暴跌 13.8 分暴露执行短板

满分模型的结构特征

昨日执行大跳与今日结构

豆包 Pro 异常下跌分析

其他模型的执行约束搭配

相关测评

Winzheng Index Claude Opus 4.7代码执行从100暴跌至50 主榜单日掉25.7分

Winzheng Index GPT-5.5 暴跌 23 分，Claude 两款模型逆袭 34 分：Smoke 7 天数据揭示真实走势

Winzheng Index 豆包 Pro Smoke评测主榜暴跌13.8分，代码执行从100直降75

Winzheng Index Claude 19.8分最大增幅 WDCD八模型全线上涨无一下降