Smoke评测：Claude Sonnet 4.6 99.78分断层领先，GPT系列集体卡在74分

2026年06月01日 29 约2分钟 Winzheng Index

Claude Sonnet 4.6 材料约束 Smoke评测主榜排名代码执行

Smoke轻量评测今天凌晨3点完成11个主流模型的10题快测，主榜核心公式0.55×代码执行+0.45×材料约束再次印证了当前AI能力的两极分化。

Claude Sonnet 4.6以99.78分位居第一，代码执行100分、材料约束99.5分。DeepSeek V4 Pro和Gemini 3.1 Pro同以99.24分紧随其后，执行同样满分，但材料约束均为98.3分。三者差距仅0.54分，显示顶级模型在代码生成与事实约束上已高度接近。

豆包Pro主榜94.96分，执行100分但约束88.8分，说明其在严格材料引用场景下仍有明显短板。

GPT-5.5、GPT-o3、Grok 4、Qwen3 Max四款模型执行均100分，但材料约束分别为75、64.5、97、73.3分，最终主榜分数全部定格在74分。Grok 4约束97分却因诚信评级fail被拉低，反映出评测对诚信门槛的严格执行。

文心一言4.5执行仅50分，成为唯一未达满分的模型，主榜66.43分垫底，代码能力短板暴露无遗。

与昨日对比，所有模型分数零变化。连续多日数据表明，当前梯队已进入稳定期：前三名凭借极致材料约束占据绝对优势，中间梯队执行满分却因约束不足被锁定在90-95区间，下游模型则受限于诚信或执行双重问题，短期内难以突破。

74分不是执行问题，而是材料约束与诚信双重天花板。

行业正在从“能写代码”转向“可信代码”。下一阶段竞争，将集中在材料约束与诚信评级能否同步提升。

相关推荐