三模型88.75分并列第一 Claude双雄暴跌12分 Smoke榜单剧烈洗牌

2026年05月17日 19 约3分钟 Winzheng Index

Claude Opus 4.7 材料约束 Smoke轻量评测模型迭代性能波动

今日Smoke轻量评测结果显示，Claude Opus 4.7、DeepSeek V4 Pro与Qwen3 Max三模型以88.75分并列主榜第一，代码执行均满分100分，材料约束同为75分。这一局面打破了此前Claude单极主导的格局，Open模型正以更快的速度逼近闭源顶尖水平。

Claude双雄为何突然崩盘

最引人注目的异常是Claude系列的集体下滑。Claude Sonnet 4.6主榜从昨日98.35分跌至86.05分，暴跌12.3分，其中材料约束直接从96.3分腰斩至69分。Claude Opus 4.7也从昨日97.75分回落至88.75分，主榜跌9分。两款模型在同一批10题快测中同时出现材料约束失分，极大概率指向内部系统提示或安全策略的临时调整，而非模型能力永久退化。

DeepSeek与Grok的逆袭逻辑

反观DeepSeek V4 Pro，主榜从54.65分一跃至88.75分，涨幅34.1分，材料约束从14.7分提升至75分，诚信评级也从warn转为pass。这表明其在昨日的低分可能源于单次运行异常，而今日表现更接近真实上限。Grok 4同样从48.45分飙升至86.05分，涨幅38.3分，显示xAI在材料约束模块的快速迭代已见成效。

这种剧烈波动印证了Smoke评测的敏感性：10题快测放大了单次方差，但也真实反映了当前模型迭代进入“周级更新”阶段，任何一次对齐或安全补丁都可能引发分数剧烈摆动。

行业洞察：材料约束成为新战场

今日所有上榜模型代码执行均达到100分，核心_overall得分差异几乎完全由材料约束决定。这说明2026年代码能力已进入平台期，下一阶段竞争焦点已转向“材料约束”——即模型在受限指令下的合规性与一致性。GPT-5.5与GPT-o3仍停留在84.03分，材料约束仅64.5分，落后第一梯队10分以上，OpenAI在这一维度的滞后已持续两周。

当材料约束成为决定排名的关键变量时，任何试图通过安全策略“偷分”的模型，都将在快测中付出代价。

今日榜单的剧烈洗牌，预示着2026年下半年AI模型的竞争将从“谁跑得最快”转向“谁能在约束下依然保持最强”。Claude的短期回落，很可能是为长期稳定性进行的必要校准，而DeepSeek与Grok的爆发，则标志着开源/半开源阵营已真正具备与闭源巨头同台竞技的实力。

数据来源：赢政指数 (YZ Index) | Run #119 | 查看原始数据

Claude双雄为何突然崩盘

DeepSeek与Grok的逆袭逻辑

行业洞察：材料约束成为新战场

相关推荐