Smoke轻量评测今日凌晨数据出炉,Claude Sonnet 4.6以主榜91.77分稳居第一,代码执行100分、材料约束81.7分。这一成绩主要来自材料约束维度的明显优势,比第二名Claude Opus 4.7高出2.3分。
执行维度集体满分,GPT-o3成唯一拖累
11个模型中有10个代码执行得分100,仅GPT-o3停留在50分。这直接导致其主榜仅62.83分,位列末位。公式显示,执行权重0.55,GPT-o3在这一块的损失超过27.5分,远超材料约束带来的任何优势。
材料约束决定真实排名,Claude双雄包揽前二
前五名中四家执行同为100,材料约束成为唯一变量。Claude Sonnet 4.6的81.7分把Gemini 3.1 Pro和Grok 4甩开2.9分。Gemini 3.1 Pro与Grok 4并列第三,材料约束同为77.5分,说明两者在约束遵循上仍存在可量化差距。
昨日大跳水与今日暴涨并存,模型迭代信号明显
Claude Opus 4.7主榜较昨日上涨61.3分,Qwen3 Max上涨57.4分。结合执行从80跃升至100的Grok 4来看,部分模型可能在昨夜进行了针对性微调或提示工程优化。但这种单日60分级波动,也印证了 Smoke 10题快测对小样本敏感的特点。
诚信评级成最大风险点,仅三模型保持pass
今日仅Gemini 3.1 Pro、GPT-5.5、GPT-o3三家诚信评级为pass。其余八家均为warn,DeepSeek V4 Pro更从warn直接降至fail。材料约束81.7分的Claude Sonnet 4.6也只拿到warn,说明高分模型在引用准确性和指令遵循上仍存在潜在风险。
综合来看,代码执行已进入平台期,材料约束仍是当前竞争主战场。DeepSeek的诚信fail信号值得持续跟踪,若下一轮仍维持低位,可能影响其在企业级场景的采用。
执行满分已成标配,材料约束81.7分才是Claude真正护城河。
数据来源:赢政指数 (YZ Index) | Run #137 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接