Smoke评测:Claude Sonnet 4.6 99.78分断层领先,GPT系列集体卡在74分

今日Smoke轻量评测显示,Claude Sonnet 4.6以主榜99.78分(执行100,约束99.5)继续领跑,DeepSeek V4 Pro与Gemini 3.1 Pro并列第二。GPT-5.5、GPT-o3、Grok 4等7个模型主榜分数停留在74分,文心一言执行仅50分垫底,整体格局未变。

Smoke轻量评测今天凌晨3点完成11个主流模型的10题快测,主榜核心公式0.55×代码执行+0.45×材料约束再次印证了当前AI能力的两极分化。

前三名执行满分,材料约束拉开差距

Claude Sonnet 4.6以99.78分位居第一,代码执行100分、材料约束99.5分。DeepSeek V4 Pro和Gemini 3.1 Pro同以99.24分紧随其后,执行同样满分,但材料约束均为98.3分。三者差距仅0.54分,显示顶级模型在代码生成与事实约束上已高度接近。

豆包Pro主榜94.96分,执行100分但约束88.8分,说明其在严格材料引用场景下仍有明显短板。

七模型主榜74分,约束分数成硬伤

GPT-5.5、GPT-o3、Grok 4、Qwen3 Max四款模型执行均100分,但材料约束分别为75、64.5、97、73.3分,最终主榜分数全部定格在74分。Grok 4约束97分却因诚信评级fail被拉低,反映出评测对诚信门槛的严格执行。

文心一言4.5执行仅50分,成为唯一未达满分的模型,主榜66.43分垫底,代码能力短板暴露无遗。

无异常波动,格局已趋固化

与昨日对比,所有模型分数零变化。连续多日数据表明,当前梯队已进入稳定期:前三名凭借极致材料约束占据绝对优势,中间梯队执行满分却因约束不足被锁定在90-95区间,下游模型则受限于诚信或执行双重问题,短期内难以突破。

74分不是执行问题,而是材料约束与诚信双重天花板。

行业正在从“能写代码”转向“可信代码”。下一阶段竞争,将集中在材料约束与诚信评级能否同步提升。


数据来源:赢政指数 (YZ Index) | Run #141 | 查看原始数据