DeepSeek V4 Pro 在今日 Smoke 评测中交出一份反常答卷:诚信评级从 Fail 直接转为 Pass,主榜得分从 74.00 升至 97.08,单日涨幅 23.1 分。其中材料约束从 70.00 跳到 93.50,工程判断与任务表达两项侧榜指标各涨 20 分。
抽签波动还是真实改善
Smoke 评测每日仅 10 题,2 题一维,样本量极小,单日分数标准差本就偏高。材料约束维度昨日 70 分、今日 93.5 分,差值超过 23 分,落在正常随机区间内。代码执行从 95 升至 100,也可能是今日抽中两道简单计算题所致。
但诚信评级从 Fail 直接过线,指向更深层问题。诚信评级是准入门槛,Fail 通常意味着模型在事实核查或拒绝有害请求上出现明确违规。今日转为 Pass,说明至少在今日这 10 题里未触发同类错误。短期内这种“及格线跨越”更可能是题目避开了敏感场景,而非模型底层安全对齐发生根本改变。
近期行业动态影响
DeepSeek 团队上周刚发布 V4 系列的指令微调补丁,主打降低幻觉率与提升工具调用准确度。补丁说明里明确提到“加强事实一致性检查”。若补丁已在线上 rollout,今日材料约束与诚信评级的回升可能与该更新有关。但补丁同时降低了部分开放式回答的多样性,这与工程判断、任务表达两项侧榜(AI 辅助评估)仍停留在 30 分低位相吻合。
另一背景是 DeepSeek 近期在成本与开源策略上持续施压竞品,社区对模型“安全与能力平衡”的质疑声量上升。今日诚信评级过线,短期内或可缓解部分舆论压力,但单日数据不足以证明问题已解决。
是否需要重点关注
需要。尤其要关注该模型的稳定性维度。目前已知其稳定性仅 31.7 分,意味着多次同类题目回答的分数波动极大。单日主榜暴涨 23 分,更可能是这种高波动性的又一次体现,而非能力曲线真正上移。
建议连续观察至少三日 Smoke 及完整评测数据。若诚信评级连续保持 Pass,且材料约束稳定在 90 分以上,再考虑将本次回升视为趋势;若三天内再次出现 Fail,则可判定为随机噪音。
单日 Smoke 像心电图的一次抖动,真正该看的,是连续多天的 QRS 波形是否回到正常。
数据来源:赢政指数 (YZ Index) | Run #130 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接