DeepSeek涨5分却Fail：10题烟测警报

2026年05月15日 658 阅读 - 阅读来源: Winzheng Index

DeepSeek V4 Pro 诚信评级 Smoke评测模型退化材料约束

DeepSeek V4 Pro 最反常的一幕来了：主榜涨了 5 分，诚信评级却从 pass 掉到 fail。这不是普通分数波动，而是“能力看似变强、可信准入失守”的典型警报。

先看原始数据：涨分背后有硬伤

今日 Smoke 评测是每日 10 题快测，每个维度 2 题，样本很小，单日抽签波动必须纳入解释。但数据本身足够刺眼：代码执行从 69.00 拉到 100.00，单日上涨 31 分；材料约束从 69.00 降到 64.50，下滑 4.5 分；主榜从 69.00 到 74.00，上涨 5 分。

主榜只看代码执行和材料约束两个可审计维度。因此，DeepSeek V4 Pro 今天不是“全面变强”，而是代码执行大幅拉升，抵消了材料约束的下滑。

真正的问题在准入层：诚信评级 pass→fail。按照赢政指数方法，诚信评级不是加分项，而是门槛。也就是说，一个模型即便主榜上涨，只要诚信评级 fail，就不应被简单解读为“今日表现更好”。这就像赛车跑圈更快，但刹车系统报警，不能只盯秒表。

抽签波动能解释一部分，但解释不了全部

10 题 Smoke 的确容易放大波动。代码执行只有 2 题，抽到模型擅长的题型，69 到 100 并不奇怪；工程判断从 38.40 到 10.00、任务表达从 50.00 到 30.00，这两个属于侧榜，均为工程判断（侧榜，AI 辅助评估）和任务表达（侧榜，AI 辅助评估），也容易受题型影响。

但诚信评级从 pass 到 fail，性质不同。它通常不是“答得不够漂亮”，而是触发了更底层的可信问题：可能是未按约束承认不确定性，可能是引用材料时越界发挥，也可能是在需要拒绝、说明限制或保持一致口径的场景中出现硬伤。结合材料约束同步下滑 4.5 分，今天更像是“约束遵循出现裂缝”，而不是单纯抽到难题。

放到近期行业动态里看：速度和约束在拉扯

DeepSeek 系列近期一直处在高关注区：低成本推理、开发者调用、开源生态、版本迭代速度，都是行业讨论焦点。问题在于，模型越快进入高频应用，越容易暴露一个矛盾：代码题可以靠训练和工具链快速补强，但材料约束、边界意识和可信输出，往往更依赖后训练策略、评测闭环和线上策略稳定。

这次数据正好踩中这个矛盾：代码执行满分，说明它在可验证任务上有明显强项；但材料约束下滑、诚信评级 fail，说明它在“该不该说、能不能这么说、是否严格贴合输入材料”上出现风险。对企业用户来说，后者往往比前者更要命。代码错了还能测，依据编造了，业务决策可能直接跑偏。

我的判断：需要关注，但不急着定性退化

结论很明确：这不是一次可以忽略的噪声，但也不能凭单日 10 题直接判定 DeepSeek V4 Pro 真实退化。合理做法是连续观察 3 到 5 天，重点看三件事：

诚信评级是否回到 pass，还是持续 fail 或 warn；
材料约束是否继续下滑，尤其是否与诚信问题同时出现；
代码执行满分是否可复现，还是一次题型红利。

如果接下来主榜维持 70 分以上，但诚信评级反复 fail，那么赢政天下会把它归类为“高能力、高风险”模型：适合沙箱、测试、代码辅助，不适合直接进入严肃业务闭环。

今天的金句是：模型跑得快不稀奇，关键是它能不能在红线前刹住车。

数据来源：赢政指数 (YZ Index) | Run #117 | 查看原始数据

DeepSeek涨5分却Fail：10题烟测警报

先看原始数据：涨分背后有硬伤

抽签波动能解释一部分，但解释不了全部

放到近期行业动态里看：速度和约束在拉扯

我的判断：需要关注，但不急着定性退化

相关测评

Winzheng Index DeepSeek V4 Pro材料约束暴跌31.8分 代码执行却从69.5直升100

Winzheng Index GPT-o3代码执行飙升52.5分 材料约束却跌15.7分 主榜反升21.8

Winzheng Index GLM-4.6 材料约束 93.30 分却诚信 fail，代码执行 25.00 分拖累主榜

Winzheng Index GLM-4.6 诚信评级从 pass 跌至 fail，代码执行却暴涨 47 分

Winzheng Index DeepSeek V4 Pro材料约束暴跌31.8分代码执行却从69.5直升100

Winzheng Index GPT-o3代码执行飙升52.5分材料约束却跌15.7分主榜反升21.8