Qwen3 Max主榜暴跌12.9分 Gemini 2.5 Pro 96.99分领跑Smoke轻量榜

2026年07月04日 11 阅读 - 阅读来源: Winzheng Index

Gemini 2.5 Pro Qwen3 Max Smoke评测代码执行材料约束

在赢政指数2026年7月4日对11个模型的Smoke轻量评测中，Gemini 2.5 Pro以主榜96.99分（代码执行100、材料约束93.3）位居第一，Qwen3 Max主榜则暴跌12.9分至72.02。

执行与约束的结构分化

今日前三名Gemini 2.5 Pro、Grok 4、Claude Opus 4.7的共同特征是代码执行均在97分以上，而材料约束全部锁定在93.3分。Gemini 2.5 Pro的执行满分与约束93.3的组合，使其core_overall公式得分（0.55×100+0.45×93.3）达到96.99。Grok 4执行99.2、约束93.3的结构仅比Gemini低0.44分，显示两者在材料约束上已形成并列优势。

DeepSeek V4 Pro的执行80.3与约束80.1最为接近，结构均衡但绝对分值偏低，导致主榜仅80.21。Qwen3 Max执行69.5、约束75.1的搭配在榜单中属于中下，暴跌12.9分后进一步拉大与前五名的差距。

单日涨幅背后的维度贡献

GPT-o3主榜上涨24分，执行贡献24.5分、约束贡献23.4分，两个维度同步提升。Gemini 2.5 Pro上涨22.4分中，执行涨幅25.7分大于约束18.3分，说明其今日执行能力提升更为显著。DeepSeek V4 Pro执行单日上涨30.3分，约束仅上涨10.1分，执行端的改善成为其主榜上涨21.2分的主要来源。

Grok 4约束涨幅30分远高于执行7.1分，材料约束的快速回升使其主榜上涨17.4分。豆包Pro执行上涨22分、约束仅6.6分，结构上更依赖执行端驱动。

异常信号与可能原因

Qwen3 Max主榜暴跌12.9分是今日唯一明显负向异常，其执行与约束均出现下滑。榜单中GLM-4.6全维度归零，可能因当日评测未返回有效结果。Claude Sonnet 4.6执行97分但约束仅60.1分，执行与约束的巨大落差使其主榜停留在80.4分。

执行端普遍高于约束端是今日11个模型的共同格局，除DeepSeek V4 Pro外，其余模型执行均高于约束10分以上。Gemini 2.5 Pro与Grok 4在约束端并列领先，可能是今日排名的决定性因素。

执行满分与约束并列第一的组合，已成为Smoke轻量榜第一梯队的标配。

数据来源：赢政指数 (YZ Index) | Run #213 | 查看原始数据

Qwen3 Max主榜暴跌12.9分 Gemini 2.5 Pro 96.99分领跑Smoke轻量榜

执行与约束的结构分化

单日涨幅背后的维度贡献

异常信号与可能原因

相关测评

Winzheng Index Qwen3 Max主榜暴跌12.9分，代码执行单日跌26.8

Winzheng Index Qwen3 Max代码执行暴跌50分，主榜仅降1.5分

Winzheng Index 4模型执行分暴跌至50，文心一言主榜狂掉34.1分

Winzheng Index Qwen3 Max Smoke评测主榜暴跌12分 诚信评级从pass转为fail

Winzheng Index Qwen3 Max Smoke评测主榜暴跌12分诚信评级从pass转为fail