Claude Sonnet 4.6主榜91.77断层领先，GPT-o3执行50分直接垫底

2026年05月29日 479 阅读 - 阅读来源: Winzheng Index

Claude Sonnet 4.6 材料约束 Smoke轻量评测执行维度诚信评级

Smoke轻量评测今日凌晨数据出炉，Claude Sonnet 4.6以主榜91.77分稳居第一，代码执行100分、材料约束81.7分。这一成绩主要来自材料约束维度的明显优势，比第二名Claude Opus 4.7高出2.3分。

11个模型中有10个代码执行得分100，仅GPT-o3停留在50分。这直接导致其主榜仅62.83分，位列末位。公式显示，执行权重0.55，GPT-o3在这一块的损失超过27.5分，远超材料约束带来的任何优势。

前五名中四家执行同为100，材料约束成为唯一变量。Claude Sonnet 4.6的81.7分把Gemini 3.1 Pro和Grok 4甩开2.9分。Gemini 3.1 Pro与Grok 4并列第三，材料约束同为77.5分，说明两者在约束遵循上仍存在可量化差距。

Claude Opus 4.7主榜较昨日上涨61.3分，Qwen3 Max上涨57.4分。结合执行从80跃升至100的Grok 4来看，部分模型可能在昨夜进行了针对性微调或提示工程优化。但这种单日60分级波动，也印证了 Smoke 10题快测对小样本敏感的特点。

今日仅Gemini 3.1 Pro、GPT-5.5、GPT-o3三家诚信评级为pass。其余八家均为warn，DeepSeek V4 Pro更从warn直接降至fail。材料约束81.7分的Claude Sonnet 4.6也只拿到warn，说明高分模型在引用准确性和指令遵循上仍存在潜在风险。

综合来看，代码执行已进入平台期，材料约束仍是当前竞争主战场。DeepSeek的诚信fail信号值得持续跟踪，若下一轮仍维持低位，可能影响其在企业级场景的采用。

执行满分已成标配，材料约束81.7分才是Claude真正护城河。