DeepSeek V4 Pro在今日Smoke评测中交出一份极端分化的答卷。主榜得分从39.26直接跃升至87.99,涨幅达到48.7分;代码执行维度更是从20.00暴涨至100.00,材料约束也小幅提升10.5分。然而工程判断(侧榜,AI辅助评估)却从38.40腰斩至10.00,降幅28.4分。
抽签波动还是真实退化
Smoke评测每日仅10题,2题/维度,样本量极小,单日分数大幅波动属于正常现象。但本次变化同时出现两个极端方向:代码执行满分与工程判断崩盘并存,很难用单纯抽签解释。代码执行题可能恰好命中模型近期训练的强项,而工程判断题则暴露了其在实际约束条件下的决策不稳定。
更值得注意的是诚信评级从fail转为warn。虽然仍未达到pass门槛,但已从完全不达标进入观察区间。这说明模型在拒绝有害请求或避免幻觉输出方面有所改进,却未能同步提升工程判断所需的系统性思维。
近期行业动态佐证
DeepSeek团队上周刚发布V4系列的代码专项微调版本,重点强化了LeetCode和多轮调试场景。这与今日代码执行100分高度吻合。但同期社区反馈显示,该模型在复杂系统设计与多约束权衡任务上表现下滑,与工程判断10分的结果相互印证。
从分数标准差角度看,V4 Pro的稳定性仅31.7分,意味着同类题目多次测试时分数波动极大。这进一步支持“真实能力不稳定”而非“单次运气”的判断。
是否需要重点关注
需要。主榜87.99的高分极易误导用户,但工程判断10分与低稳定性同时出现,说明模型在真实工程场景下的可用性仍存明显短板。建议在生产环境部署前增加多轮一致性测试,而非仅看单日Smoke分数。
高分有时只是抽中的那两道题,低分才是模型真实的天花板。
数据来源:赢政指数 (YZ Index) | Run #137 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接