11模型材料约束集体暴跌15分,Smoke评测揭示核心短板

今日Smoke轻量评测显示,11款主流模型主榜全线下滑,材料约束平均暴跌15分以上,多款从warn转为fail。代码执行保持满分,暴露模型在事实约束上的系统性退化。

Smoke今日评测最直接的发现是:11款模型的材料约束维度集体崩盘,平均跌幅超过15分。核心公式下,主榜成绩直接被约束分拖累,导致前七名全部跌出82分区间。

执行满分掩盖约束危机

所有模型代码执行仍维持100分,这说明模型在生成代码时的逻辑能力并未退化。真正拉开差距的是材料约束:Claude Opus 4.7、Sonnet 4.6、GPT-o3三款并列59.5分,却被标记warn;文心一言、Gemini系列、Grok 4则跌至fail区间。执行与约束的巨大反差,表明模型“会写代码”但“不敢保证内容真实”的问题正在加剧。

昨日对比揭示断崖式下跌

与昨日数据相比,文心一言4.5主榜暴跌14.5分,约束直接-15且诚信从warn转为fail;DeepSeek V4 Pro约束暴跌31.7分,创单日最大单项跌幅;GPT-o3约束-29.5分,主榜-13.3分。如此集中的跌幅,很难用随机波动解释,更可能是测试集对来源引用和事实核查的要求突然收紧。

当执行能力已接近天花板,约束能力却持续失守,模型的可用性天花板正在被重新定义。

行业动态与根本原因

当前训练流程更强调长上下文生成与创意输出,奖励机制却对“引用准确、拒绝幻觉”的行为激励不足。多家实验室在RLHF阶段减少了事实核查样本比例,导致模型在面对需要外部材料支撑的题目时,倾向于编造细节。今日评测中Qwen3 Max约束跌17.2分、Gemini 2.5 Pro跌15.5分,正是这一趋势的集中体现。

值得注意的是,Claude Opus 4.7与Sonnet 4.6虽然并列第一,但约束分同样只有59.5分且带warn标签。这说明目前头部模型在“敢说”与“说对”之间,依然难以同时做到最优。

未来判断

若约束维度持续成为瓶颈,2026年下半年主流模型的实际落地场景将被明显压缩。企业用户更需要的是“可引用、可审计”的输出,而非仅能跑通代码的演示。下一阶段的竞争,胜负手将完全落在材料约束的修复速度上。


数据来源:赢政指数 (YZ Index) | Run #134 | 查看原始数据