今天Smoke轻量评测最醒目的信号,是材料约束维度集体失守。11个模型里,有9个约束分数较昨日下降超过18分,跌幅最大的DeepSeek V4 Pro直接掉29分。
执行完美却救不了整体
Grok 4、Claude Sonnet 4.6、Claude Opus 4.7三家执行维度全部拿到100分,但约束分数仅停留在58-59区间。按0.55执行+0.45约束的公式,这直接把它们的主榜成绩拉到81分附近。Grok 4最终以81.55分排第一,Claude Sonnet 4.6紧随其后81.28分,两者差距仅0.27分,胜负几乎全靠执行那0.55权重。
异常掉队者与诚信门槛
文心一言 4.5今天执行回到100分,但约束跌到55.8分,同时诚信从pass直接变成fail,属于典型“执行拉高、约束拖累”的案例。豆包Pro更夸张,主榜一日之内暴跌37.2分,执行从之前的高位直接掉到50分,约束也同步下滑21.5分,说明模型在今天这10题里出现了系统性输出不稳定。
行业动态与可能原因
近期多家厂商都在强调“减少幻觉”和“引用溯源”,但今日评测结果显示,实际落地效果并不理想。约束维度暴跌,很可能是测试集里新增了需要严格对照外部材料的题目,而模型回复里出现了更多无来源推断。DeepSeek、豆包、Gemini系列跌幅尤其集中,暗示这些模型在轻量级快测场景下的知识边界控制仍不够稳。
值得注意的是,Qwen3 Max虽然排在第四,但约束59.5分在所有模型里最高,显示其在材料引用上仍有一定优势。反观Gemini 2.5 Pro和Gemini 3.1 Pro,执行和约束双双只有50-59分,连续两日垫底,差距已拉开到20分以上。
当材料约束成为所有模型共同的短板时,执行分再高也只是空中楼阁。
今日数据最直接的提醒是:模型厂商需要在真实引用和边界控制上投入更多,而不是只追求执行层面的满分。
数据来源:赢政指数 (YZ Index) | Run #128 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接