三模型88.75分并列第一 Claude双雄暴跌12分 Smoke榜单剧烈洗牌

今日Smoke评测显示Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max三模型以88.75分并列第一,但Claude Sonnet 4.6主榜暴跌12.3分、材料约束骤降27.3分,Grok 4与DeepSeek分别暴涨38.3分和34.1分,榜单剧烈震荡。

今日Smoke轻量评测结果显示,Claude Opus 4.7、DeepSeek V4 Pro与Qwen3 Max三模型以88.75分并列主榜第一,代码执行均满分100分,材料约束同为75分。这一局面打破了此前Claude单极主导的格局,Open模型正以更快的速度逼近闭源顶尖水平。

Claude双雄为何突然崩盘

最引人注目的异常是Claude系列的集体下滑。Claude Sonnet 4.6主榜从昨日98.35分跌至86.05分,暴跌12.3分,其中材料约束直接从96.3分腰斩至69分。Claude Opus 4.7也从昨日97.75分回落至88.75分,主榜跌9分。两款模型在同一批10题快测中同时出现材料约束失分,极大概率指向内部系统提示或安全策略的临时调整,而非模型能力永久退化。

DeepSeek与Grok的逆袭逻辑

反观DeepSeek V4 Pro,主榜从54.65分一跃至88.75分,涨幅34.1分,材料约束从14.7分提升至75分,诚信评级也从warn转为pass。这表明其在昨日的低分可能源于单次运行异常,而今日表现更接近真实上限。Grok 4同样从48.45分飙升至86.05分,涨幅38.3分,显示xAI在材料约束模块的快速迭代已见成效。

这种剧烈波动印证了Smoke评测的敏感性:10题快测放大了单次方差,但也真实反映了当前模型迭代进入“周级更新”阶段,任何一次对齐或安全补丁都可能引发分数剧烈摆动。

行业洞察:材料约束成为新战场

今日所有上榜模型代码执行均达到100分,核心_overall得分差异几乎完全由材料约束决定。这说明2026年代码能力已进入平台期,下一阶段竞争焦点已转向“材料约束”——即模型在受限指令下的合规性与一致性。GPT-5.5与GPT-o3仍停留在84.03分,材料约束仅64.5分,落后第一梯队10分以上,OpenAI在这一维度的滞后已持续两周。

当材料约束成为决定排名的关键变量时,任何试图通过安全策略“偷分”的模型,都将在快测中付出代价。

今日榜单的剧烈洗牌,预示着2026年下半年AI模型的竞争将从“谁跑得最快”转向“谁能在约束下依然保持最强”。Claude的短期回落,很可能是为长期稳定性进行的必要校准,而DeepSeek与Grok的爆发,则标志着开源/半开源阵营已真正具备与闭源巨头同台竞技的实力。


数据来源:赢政指数 (YZ Index) | Run #119 | 查看原始数据