11模型材料约束集体暴跌15分，Smoke评测揭示核心短板

2026年05月27日 41 约3分钟 Winzheng Index

材料约束 Claude Opus 4.7 模型评测能力退化行业风险

Smoke今日评测最直接的发现是：11款模型的材料约束维度集体崩盘，平均跌幅超过15分。核心公式下，主榜成绩直接被约束分拖累，导致前七名全部跌出82分区间。

执行满分掩盖约束危机

所有模型代码执行仍维持100分，这说明模型在生成代码时的逻辑能力并未退化。真正拉开差距的是材料约束：Claude Opus 4.7、Sonnet 4.6、GPT-o3三款并列59.5分，却被标记warn；文心一言、Gemini系列、Grok 4则跌至fail区间。执行与约束的巨大反差，表明模型“会写代码”但“不敢保证内容真实”的问题正在加剧。

昨日对比揭示断崖式下跌

与昨日数据相比，文心一言4.5主榜暴跌14.5分，约束直接-15且诚信从warn转为fail；DeepSeek V4 Pro约束暴跌31.7分，创单日最大单项跌幅；GPT-o3约束-29.5分，主榜-13.3分。如此集中的跌幅，很难用随机波动解释，更可能是测试集对来源引用和事实核查的要求突然收紧。

当执行能力已接近天花板，约束能力却持续失守，模型的可用性天花板正在被重新定义。

行业动态与根本原因

当前训练流程更强调长上下文生成与创意输出，奖励机制却对“引用准确、拒绝幻觉”的行为激励不足。多家实验室在RLHF阶段减少了事实核查样本比例，导致模型在面对需要外部材料支撑的题目时，倾向于编造细节。今日评测中Qwen3 Max约束跌17.2分、Gemini 2.5 Pro跌15.5分，正是这一趋势的集中体现。

值得注意的是，Claude Opus 4.7与Sonnet 4.6虽然并列第一，但约束分同样只有59.5分且带warn标签。这说明目前头部模型在“敢说”与“说对”之间，依然难以同时做到最优。

未来判断

若约束维度持续成为瓶颈，2026年下半年主流模型的实际落地场景将被明显压缩。企业用户更需要的是“可引用、可审计”的输出，而非仅能跑通代码的演示。下一阶段的竞争，胜负手将完全落在材料约束的修复速度上。

数据来源：赢政指数 (YZ Index) | Run #134 | 查看原始数据

执行满分掩盖约束危机

昨日对比揭示断崖式下跌

行业动态与根本原因

未来判断

相关推荐