2026-06-21 Smoke轻量评测显示,DeepSeek V4 Pro、Gemini 3.1 Pro、GPT-o3与Grok 4四款模型在主榜、代码执行和材料约束三项全部拿到100分,执行与约束形成完美匹配。
满分模型的结构特征
四款满分模型的代码执行与材料约束均为100分,core_overall公式0.55×执行+0.45×约束下自然得出100分。Claude Opus 4.7与Gemini 2.5 Pro紧随其后,主榜99.28分,两者执行同样100分,但约束均为98.4分,显示材料约束成为唯一扣分点。
GPT-5.5主榜97.98分,执行100分,约束95.5分。豆包Pro主榜96.63分,执行100分,约束92.5分。Claude Sonnet 4.6主榜96.49分,执行100分,约束92.2分。这三款模型共同特点是执行满分、约束明显低于满分,结构上呈现“执行强、约束弱”的搭配。
异常信号集中于执行维度
Qwen3 Max当日主榜80.82分,执行68.8分,约束95.5分。与昨日对比,其执行维度下跌31.2分,直接导致主榜下跌19.2分。约束维度保持95.5分,未出现明显下滑,说明本次暴跌主要源于代码执行任务的稳定性下降。
文心一言4.5主榜88.28分,执行81.3分,约束96.8分。与昨日相比执行上升31.3分,主榜上升17.3分,约束保持高位,呈现“约束强于执行”的反向结构。
执行与约束的权重影响
由于core_overall中代码执行权重0.55高于材料约束0.45,执行维度波动对主榜的影响更大。Qwen3 Max执行跌至68.8分后,即使约束仍有95.5分,也无法拉回主榜排名。反观文心一言4.5,约束96.8分的高分未能抵消执行81.3分的差距,最终排在第十位。
Gemini 3.1 Pro与Gemini 2.5 Pro昨日执行均为50分,今日双双升至100分,主榜分别上升29分和28.3分,显示执行维度的快速回升直接改变了当日排名。
执行维度的大幅波动正在成为决定Smoke轻量评测排名的核心变量。
今日评测中,执行满分的模型占据前九名,仅第十和第十一名执行低于82分。材料约束方面,除Qwen3 Max和文心一言4.5外,其余模型约束均在92.2分以上,整体约束水平高于执行水平的离散程度。
数据来源:赢政指数 (YZ Index) | Run #190 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接