DeepSeek V4 Pro 97.08分登顶，文心一言执行分腰斩暴跌27.2

May 25, 2026 11 approx.2min Winzheng Index

DeepSeek V4 Pro 文心一言 Smoke轻量评测代码执行性能波动

Smoke轻量评测今日凌晨数据出炉，DeepSeek V4 Pro以97.08分成为唯一突破97的模型，执行维度满分100、材料约束93.5，稳居第一。

前七名模型执行维度全部达到100分，材料约束成为唯一拉开差距的维度。DeepSeek V4 Pro的93.5分比第二名Claude Opus 4.7高出0.7分，0.45的权重让这0.7分直接转化为0.315分的总分优势。

GPT-o3昨日执行分仅47.5，今天直接拉到85.7，主榜上涨31.4分。反观文心一言4.5，执行分从95暴跌至50，材料约束也下降5.5分，主榜单日损失27.2分。两家模型同一天出现超过25分的剧烈变动，指向底层策略或训练数据的即时调整。

DeepSeek V4 Pro诚信评级从fail转为pass，文心一言则从warn转为pass。评测方特别标注这两个异常信号，说明系统对回答一致性的监控已捕捉到明显变化。尤其DeepSeek在总分最高的同时完成诚信升级，其工程团队对输出控制的改进值得关注。

当前排名前四模型总分差距仅0.54分，属于同一梯队。Gemini 2.5 Pro和豆包 Pro紧随其后，显示国产与海外模型在代码执行能力上已基本拉平。文心一言的执行分腰斩更像单点故障，而非整体架构问题，但连续两日大起大落已对用户信任造成冲击。

DeepSeek V4 Pro目前在核心可审计维度上建立了最清晰的领先优势，其余模型若想反超，必须在材料约束上找到至少2分的提升空间。

执行满分已成标配，材料约束与一致性控制正在决定下一轮淘汰赛的入场券。

Related Articles