Smoke 7天数据：DeepSeek V4 Pro均分79.8 GPT-5.5逆袭11.5分

2026年05月31日 375 阅读 - 阅读来源: Winzheng Index

DeepSeek V4 Pro GPT-5.5 诚信评级波动周趋势分析 Smoke快测

Smoke 7天数据：DeepSeek V4 Pro均分79.8 GPT-5.5逆袭11.5分

本周Smoke快测连续7天数据揭示，DeepSeek V4 Pro从首日97.08直接跌至末日66.88，整体趋势-30.2，均值仅79.8，波动高达57.8。这一滑坡幅度在所有模型中位居前列，与其前期高位表现形成鲜明对比。

下滑模型：DeepSeek与Gemini 2.5 Pro问题集中

DeepSeek V4 Pro的下滑并非孤例。Gemini 2.5 Pro同样从96.63跌至66.2，趋势-30.4，均值75，波动58.3。两款模型在第4天和第5天均出现单日低谷，结合诚信评级从pass快速转为warn甚至fail，显示出回答一致性严重不足。GPT-o3也从89.44降至71.06，趋势-18.4，均值75.5，波动68.7，同样伴随诚信评级多次warn。

这些下滑与模型在连续快测中暴露的稳定性缺陷直接相关。赢政指数的稳定性维度衡量的是分数标准差，而非正确率本身。DeepSeek V4 Pro和Gemini 2.5 Pro的高波动值，意味着同类题目多次回答时分数起伏明显，难以维持高水准输出。

上升模型：GPT-5.5与Claude Sonnet 4.6稳步反弹

与下滑形成对照的是GPT-5.5和Claude Sonnet 4.6的强势表现。GPT-5.5从87.41升至98.88，趋势+11.5，均值81.5，波动69。Claude Sonnet 4.6则从90.56升至98.97，趋势+8.4，均值83.8，波动62.8。豆包Pro和Grok 4也分别实现+2.3和+2.9的温和增长，末日分数均接近99分。

这些上升模型在诚信评级上虽有warn出现，但整体恢复速度更快。Claude Sonnet 4.6和GPT-5.5在后三天的评级基本稳定在pass，显示出对快测题目的适应性提升。文心一言4.5更是从61.25大幅跃升至84.39，趋势+23.1，但其均值仅69，基础仍显薄弱。

诚信评级波动成最大信号

本周最值得关注的并非单纯分数，而是诚信评级变化。DeepSeek V4 Pro、Gemini 2.5 Pro、Grok 4和GPT-o3均出现pass-warn-fail的反复切换。Gemini 3.1 Pro虽趋势持平，但第3天直接fail，第7天转为warn。诚信评级作为准入门槛，其频繁波动直接影响模型可信度评估。

高波动模型中，Claude Opus 4.7和GPT-5.5的稳定性分数分别达到69.9和69，表明回答一致性较低。结合行业背景，当前快测样本虽小，但连续7天已足够揭示模型在高压连续提问下的真实状态。

下周Full评测预判

基于本周趋势，下周Full评测中，DeepSeek V4 Pro和Gemini 2.5 Pro大概率继续承压，若无法解决一致性问题，核心_overall_display分数将继续下滑。GPT-5.5和Claude Sonnet 4.6则有望在材料约束与代码执行维度上进一步巩固优势。

连续快测的波动，已提前为Full评测画出分水岭。

模型间差距将继续拉大，诚信评级稳定的上升者将获得更多信任，而反复滑坡者则需在下一阶段给出实质性改进。

数据来源：赢政指数 (YZ Index) | Run #139 | 查看原始数据

Smoke 7天数据：DeepSeek V4 Pro均分79.8 GPT-5.5逆袭11.5分

下滑模型：DeepSeek与Gemini 2.5 Pro问题集中

上升模型：GPT-5.5与Claude Sonnet 4.6稳步反弹

诚信评级波动成最大信号

下周Full评测预判

相关测评

Winzheng Index Claude Sonnet 4.6 与 GPT-o3并列96.27分：2026-07-21 Smoke快测数据简报

Winzheng Index Claude Opus 4.7以100分居首：2026-07-20 Smoke快测数据简报

Winzheng Index Claude Opus 4.7 均值 86.9 分领跑 GPT-o3 7 天下跌 30.5 分

Winzheng Index Claude Opus 4.7以95.19分居首：2026-07-19 Smoke快测数据简报