Smoke轻量评测今天凌晨3点完成11个主流模型的10题快测,主榜核心公式0.55×代码执行+0.45×材料约束再次印证了当前AI能力的两极分化。
前三名执行满分,材料约束拉开差距
Claude Sonnet 4.6以99.78分位居第一,代码执行100分、材料约束99.5分。DeepSeek V4 Pro和Gemini 3.1 Pro同以99.24分紧随其后,执行同样满分,但材料约束均为98.3分。三者差距仅0.54分,显示顶级模型在代码生成与事实约束上已高度接近。
豆包Pro主榜94.96分,执行100分但约束88.8分,说明其在严格材料引用场景下仍有明显短板。
七模型主榜74分,约束分数成硬伤
GPT-5.5、GPT-o3、Grok 4、Qwen3 Max四款模型执行均100分,但材料约束分别为75、64.5、97、73.3分,最终主榜分数全部定格在74分。Grok 4约束97分却因诚信评级fail被拉低,反映出评测对诚信门槛的严格执行。
文心一言4.5执行仅50分,成为唯一未达满分的模型,主榜66.43分垫底,代码能力短板暴露无遗。
无异常波动,格局已趋固化
与昨日对比,所有模型分数零变化。连续多日数据表明,当前梯队已进入稳定期:前三名凭借极致材料约束占据绝对优势,中间梯队执行满分却因约束不足被锁定在90-95区间,下游模型则受限于诚信或执行双重问题,短期内难以突破。
74分不是执行问题,而是材料约束与诚信双重天花板。
行业正在从“能写代码”转向“可信代码”。下一阶段竞争,将集中在材料约束与诚信评级能否同步提升。
数据来源:赢政指数 (YZ Index) | Run #141 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接