在赢政指数2026年7月4日对11个模型的Smoke轻量评测中,Gemini 2.5 Pro以主榜96.99分(代码执行100、材料约束93.3)位居第一,Qwen3 Max主榜则暴跌12.9分至72.02。
执行与约束的结构分化
今日前三名Gemini 2.5 Pro、Grok 4、Claude Opus 4.7的共同特征是代码执行均在97分以上,而材料约束全部锁定在93.3分。Gemini 2.5 Pro的执行满分与约束93.3的组合,使其core_overall公式得分(0.55×100+0.45×93.3)达到96.99。Grok 4执行99.2、约束93.3的结构仅比Gemini低0.44分,显示两者在材料约束上已形成并列优势。
DeepSeek V4 Pro的执行80.3与约束80.1最为接近,结构均衡但绝对分值偏低,导致主榜仅80.21。Qwen3 Max执行69.5、约束75.1的搭配在榜单中属于中下,暴跌12.9分后进一步拉大与前五名的差距。
单日涨幅背后的维度贡献
GPT-o3主榜上涨24分,执行贡献24.5分、约束贡献23.4分,两个维度同步提升。Gemini 2.5 Pro上涨22.4分中,执行涨幅25.7分大于约束18.3分,说明其今日执行能力提升更为显著。DeepSeek V4 Pro执行单日上涨30.3分,约束仅上涨10.1分,执行端的改善成为其主榜上涨21.2分的主要来源。
Grok 4约束涨幅30分远高于执行7.1分,材料约束的快速回升使其主榜上涨17.4分。豆包Pro执行上涨22分、约束仅6.6分,结构上更依赖执行端驱动。
异常信号与可能原因
Qwen3 Max主榜暴跌12.9分是今日唯一明显负向异常,其执行与约束均出现下滑。榜单中GLM-4.6全维度归零,可能因当日评测未返回有效结果。Claude Sonnet 4.6执行97分但约束仅60.1分,执行与约束的巨大落差使其主榜停留在80.4分。
执行端普遍高于约束端是今日11个模型的共同格局,除DeepSeek V4 Pro外,其余模型执行均高于约束10分以上。Gemini 2.5 Pro与Grok 4在约束端并列领先,可能是今日排名的决定性因素。
执行满分与约束并列第一的组合,已成为Smoke轻量榜第一梯队的标配。
数据来源:赢政指数 (YZ Index) | Run #213 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接