DeepSeek V4 Pro Smoke测试主榜暴涨48.7，工程判断却暴跌28.4

2026年05月29日 503 阅读 - 阅读来源: Winzheng Index

DeepSeek V4 Pro 代码执行 Smoke评测模型一致性工程判断

DeepSeek V4 Pro在今日Smoke评测中交出一份极端分化的答卷。主榜得分从39.26直接跃升至87.99，涨幅达到48.7分；代码执行维度更是从20.00暴涨至100.00，材料约束也小幅提升10.5分。然而工程判断（侧榜，AI辅助评估）却从38.40腰斩至10.00，降幅28.4分。

Smoke评测每日仅10题，2题/维度，样本量极小，单日分数大幅波动属于正常现象。但本次变化同时出现两个极端方向：代码执行满分与工程判断崩盘并存，很难用单纯抽签解释。代码执行题可能恰好命中模型近期训练的强项，而工程判断题则暴露了其在实际约束条件下的决策不稳定。

更值得注意的是诚信评级从fail转为warn。虽然仍未达到pass门槛，但已从完全不达标进入观察区间。这说明模型在拒绝有害请求或避免幻觉输出方面有所改进，却未能同步提升工程判断所需的系统性思维。

DeepSeek团队上周刚发布V4系列的代码专项微调版本，重点强化了LeetCode和多轮调试场景。这与今日代码执行100分高度吻合。但同期社区反馈显示，该模型在复杂系统设计与多约束权衡任务上表现下滑，与工程判断10分的结果相互印证。

从分数标准差角度看，V4 Pro的稳定性仅31.7分，意味着同类题目多次测试时分数波动极大。这进一步支持“真实能力不稳定”而非“单次运气”的判断。

需要。主榜87.99的高分极易误导用户，但工程判断10分与低稳定性同时出现，说明模型在真实工程场景下的可用性仍存明显短板。建议在生产环境部署前增加多轮一致性测试，而非仅看单日Smoke分数。

高分有时只是抽中的那两道题，低分才是模型真实的天花板。