Qwen3 Max主榜暴跌19.2分四模型执行约束双满分

2026年06月21日 13 阅读 - 阅读来源: Winzheng Index

Qwen3 Max 代码执行 Smoke轻量评测材料约束异常波动

2026-06-21 Smoke轻量评测显示，DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3与Grok 4四款模型在主榜、代码执行和材料约束三项全部拿到100分，执行与约束形成完美匹配。

四款满分模型的代码执行与材料约束均为100分，core_overall公式0.55×执行+0.45×约束下自然得出100分。Claude Opus 4.7与Gemini 2.5 Pro紧随其后，主榜99.28分，两者执行同样100分，但约束均为98.4分，显示材料约束成为唯一扣分点。

GPT-5.5主榜97.98分，执行100分，约束95.5分。豆包Pro主榜96.63分，执行100分，约束92.5分。Claude Sonnet 4.6主榜96.49分，执行100分，约束92.2分。这三款模型共同特点是执行满分、约束明显低于满分，结构上呈现“执行强、约束弱”的搭配。

Qwen3 Max当日主榜80.82分，执行68.8分，约束95.5分。与昨日对比，其执行维度下跌31.2分，直接导致主榜下跌19.2分。约束维度保持95.5分，未出现明显下滑，说明本次暴跌主要源于代码执行任务的稳定性下降。

文心一言4.5主榜88.28分，执行81.3分，约束96.8分。与昨日相比执行上升31.3分，主榜上升17.3分，约束保持高位，呈现“约束强于执行”的反向结构。

由于core_overall中代码执行权重0.55高于材料约束0.45，执行维度波动对主榜的影响更大。Qwen3 Max执行跌至68.8分后，即使约束仍有95.5分，也无法拉回主榜排名。反观文心一言4.5，约束96.8分的高分未能抵消执行81.3分的差距，最终排在第十位。

Gemini 3.1 Pro与Gemini 2.5 Pro昨日执行均为50分，今日双双升至100分，主榜分别上升29分和28.3分，显示执行维度的快速回升直接改变了当日排名。

执行维度的大幅波动正在成为决定Smoke轻量评测排名的核心变量。

今日评测中，执行满分的模型占据前九名，仅第十和第十一名执行低于82分。材料约束方面，除Qwen3 Max和文心一言4.5外，其余模型约束均在92.2分以上，整体约束水平高于执行水平的离散程度。

Qwen3 Max主榜暴跌19.2分 四模型执行约束双满分