材料约束集体暴跌20分，Grok 4 81.55分险胜Claude登顶

2026年05月23日 408 阅读 - 阅读来源: Winzheng Index

材料约束 Grok 4 Smoke轻量评测模型波动行业信号

今天Smoke轻量评测最醒目的信号，是材料约束维度集体失守。11个模型里，有9个约束分数较昨日下降超过18分，跌幅最大的DeepSeek V4 Pro直接掉29分。

执行完美却救不了整体

Grok 4、Claude Sonnet 4.6、Claude Opus 4.7三家执行维度全部拿到100分，但约束分数仅停留在58-59区间。按0.55执行+0.45约束的公式，这直接把它们的主榜成绩拉到81分附近。Grok 4最终以81.55分排第一，Claude Sonnet 4.6紧随其后81.28分，两者差距仅0.27分，胜负几乎全靠执行那0.55权重。

异常掉队者与诚信门槛

文心一言 4.5今天执行回到100分，但约束跌到55.8分，同时诚信从pass直接变成fail，属于典型“执行拉高、约束拖累”的案例。豆包Pro更夸张，主榜一日之内暴跌37.2分，执行从之前的高位直接掉到50分，约束也同步下滑21.5分，说明模型在今天这10题里出现了系统性输出不稳定。

行业动态与可能原因

近期多家厂商都在强调“减少幻觉”和“引用溯源”，但今日评测结果显示，实际落地效果并不理想。约束维度暴跌，很可能是测试集里新增了需要严格对照外部材料的题目，而模型回复里出现了更多无来源推断。DeepSeek、豆包、Gemini系列跌幅尤其集中，暗示这些模型在轻量级快测场景下的知识边界控制仍不够稳。

值得注意的是，Qwen3 Max虽然排在第四，但约束59.5分在所有模型里最高，显示其在材料引用上仍有一定优势。反观Gemini 2.5 Pro和Gemini 3.1 Pro，执行和约束双双只有50-59分，连续两日垫底，差距已拉开到20分以上。

当材料约束成为所有模型共同的短板时，执行分再高也只是空中楼阁。

今日数据最直接的提醒是：模型厂商需要在真实引用和边界控制上投入更多，而不是只追求执行层面的满分。

数据来源：赢政指数 (YZ Index) | Run #128 | 查看原始数据

材料约束集体暴跌20分，Grok 4 81.55分险胜Claude登顶

执行完美却救不了整体

异常掉队者与诚信门槛

行业动态与可能原因

相关测评

Winzheng Index 文心一言主榜暴跌40.3分，Smoke评测揭露执行约束双崩

Winzheng Index Smoke评测：Qwen3 Max约束+23分逆袭，GPT-o3材料约束暴跌15.2分

Winzheng Index 材料约束暴跌39分，赢政指数11模型主榜集体下滑

Winzheng Index Claude Opus 4.7 97.12 分领跑，执行满分但材料约束 93.6 分拉低整体