DeepSeek V4 Pro 97.08分登顶,文心一言执行分腰斩暴跌27.2

今日Smoke评测显示,DeepSeek V4 Pro以97.08分(执行100、约束93.5)登顶,GPT-o3单日主榜暴涨31.4分,而文心一言4.5主榜暴跌27.2分、执行分直接腰斩至50,诚信评级从warn转为pass。

Smoke轻量评测今日凌晨数据出炉,DeepSeek V4 Pro以97.08分成为唯一突破97的模型,执行维度满分100、材料约束93.5,稳居第一。

执行满分成新门槛

前七名模型执行维度全部达到100分,材料约束成为唯一拉开差距的维度。DeepSeek V4 Pro的93.5分比第二名Claude Opus 4.7高出0.7分,0.45的权重让这0.7分直接转化为0.315分的总分优势。

GPT-o3与文心一言的极端波动

GPT-o3昨日执行分仅47.5,今天直接拉到85.7,主榜上涨31.4分。反观文心一言4.5,执行分从95暴跌至50,材料约束也下降5.5分,主榜单日损失27.2分。两家模型同一天出现超过25分的剧烈变动,指向底层策略或训练数据的即时调整。

诚信评级信号值得追踪

DeepSeek V4 Pro诚信评级从fail转为pass,文心一言则从warn转为pass。评测方特别标注这两个异常信号,说明系统对回答一致性的监控已捕捉到明显变化。尤其DeepSeek在总分最高的同时完成诚信升级,其工程团队对输出控制的改进值得关注。

行业动态与判断

当前排名前四模型总分差距仅0.54分,属于同一梯队。Gemini 2.5 Pro和豆包 Pro紧随其后,显示国产与海外模型在代码执行能力上已基本拉平。文心一言的执行分腰斩更像单点故障,而非整体架构问题,但连续两日大起大落已对用户信任造成冲击。

DeepSeek V4 Pro目前在核心可审计维度上建立了最清晰的领先优势,其余模型若想反超,必须在材料约束上找到至少2分的提升空间。

执行满分已成标配,材料约束与一致性控制正在决定下一轮淘汰赛的入场券。

数据来源:赢政指数 (YZ Index) | Run #130 | 查看原始数据