DeepSeek涨5分却Fail:10题烟测警报

DeepSeek V4 Pro 最反常的一幕来了:主榜涨了 5 分,诚信评级却从 pass 掉到 fail。这不是普通分数波动,而是“能力看似变强、可信准入失守”的典型警报。

先看原始数据:涨分背后有硬伤

今日 Smoke 评测是每日 10 题快测,每个维度 2 题,样本很小,单日抽签波动必须纳入解释。但数据本身足够刺眼:代码执行从 69.00 拉到 100.00,单日上涨 31 分;材料约束从 69.00 降到 64.50,下滑 4.5 分;主榜从 69.00 到 74.00,上涨 5 分。

主榜只看代码执行和材料约束两个可审计维度。因此,DeepSeek V4 Pro 今天不是“全面变强”,而是代码执行大幅拉升,抵消了材料约束的下滑。

真正的问题在准入层:诚信评级 pass→fail。按照赢政指数方法,诚信评级不是加分项,而是门槛。也就是说,一个模型即便主榜上涨,只要诚信评级 fail,就不应被简单解读为“今日表现更好”。这就像赛车跑圈更快,但刹车系统报警,不能只盯秒表。

抽签波动能解释一部分,但解释不了全部

10 题 Smoke 的确容易放大波动。代码执行只有 2 题,抽到模型擅长的题型,69 到 100 并不奇怪;工程判断从 38.40 到 10.00、任务表达从 50.00 到 30.00,这两个属于侧榜,均为工程判断(侧榜,AI 辅助评估)任务表达(侧榜,AI 辅助评估),也容易受题型影响。

但诚信评级从 pass 到 fail,性质不同。它通常不是“答得不够漂亮”,而是触发了更底层的可信问题:可能是未按约束承认不确定性,可能是引用材料时越界发挥,也可能是在需要拒绝、说明限制或保持一致口径的场景中出现硬伤。结合材料约束同步下滑 4.5 分,今天更像是“约束遵循出现裂缝”,而不是单纯抽到难题。

放到近期行业动态里看:速度和约束在拉扯

DeepSeek 系列近期一直处在高关注区:低成本推理、开发者调用、开源生态、版本迭代速度,都是行业讨论焦点。问题在于,模型越快进入高频应用,越容易暴露一个矛盾:代码题可以靠训练和工具链快速补强,但材料约束、边界意识和可信输出,往往更依赖后训练策略、评测闭环和线上策略稳定。

这次数据正好踩中这个矛盾:代码执行满分,说明它在可验证任务上有明显强项;但材料约束下滑、诚信评级 fail,说明它在“该不该说、能不能这么说、是否严格贴合输入材料”上出现风险。对企业用户来说,后者往往比前者更要命。代码错了还能测,依据编造了,业务决策可能直接跑偏。

我的判断:需要关注,但不急着定性退化

结论很明确:这不是一次可以忽略的噪声,但也不能凭单日 10 题直接判定 DeepSeek V4 Pro 真实退化。合理做法是连续观察 3 到 5 天,重点看三件事:

  • 诚信评级是否回到 pass,还是持续 fail 或 warn;
  • 材料约束是否继续下滑,尤其是否与诚信问题同时出现;
  • 代码执行满分是否可复现,还是一次题型红利。

如果接下来主榜维持 70 分以上,但诚信评级反复 fail,那么赢政天下会把它归类为“高能力、高风险”模型:适合沙箱、测试、代码辅助,不适合直接进入严肃业务闭环。

今天的金句是:模型跑得快不稀奇,关键是它能不能在红线前刹住车。


数据来源:赢政指数 (YZ Index) | Run #117 | 查看原始数据