Smoke 7天数据:DeepSeek V4 Pro均分79.8 GPT-5.5逆袭11.5分

Smoke 7天数据:DeepSeek V4 Pro均分79.8 GPT-5.5逆袭11.5分

本周Smoke快测连续7天数据揭示,DeepSeek V4 Pro从首日97.08直接跌至末日66.88,整体趋势-30.2,均值仅79.8,波动高达57.8。这一滑坡幅度在所有模型中位居前列,与其前期高位表现形成鲜明对比。

下滑模型:DeepSeek与Gemini 2.5 Pro问题集中

DeepSeek V4 Pro的下滑并非孤例。Gemini 2.5 Pro同样从96.63跌至66.2,趋势-30.4,均值75,波动58.3。两款模型在第4天和第5天均出现单日低谷,结合诚信评级从pass快速转为warn甚至fail,显示出回答一致性严重不足。GPT-o3也从89.44降至71.06,趋势-18.4,均值75.5,波动68.7,同样伴随诚信评级多次warn。

这些下滑与模型在连续快测中暴露的稳定性缺陷直接相关。赢政指数的稳定性维度衡量的是分数标准差,而非正确率本身。DeepSeek V4 Pro和Gemini 2.5 Pro的高波动值,意味着同类题目多次回答时分数起伏明显,难以维持高水准输出。

上升模型:GPT-5.5与Claude Sonnet 4.6稳步反弹

与下滑形成对照的是GPT-5.5和Claude Sonnet 4.6的强势表现。GPT-5.5从87.41升至98.88,趋势+11.5,均值81.5,波动69。Claude Sonnet 4.6则从90.56升至98.97,趋势+8.4,均值83.8,波动62.8。豆包Pro和Grok 4也分别实现+2.3和+2.9的温和增长,末日分数均接近99分。

这些上升模型在诚信评级上虽有warn出现,但整体恢复速度更快。Claude Sonnet 4.6和GPT-5.5在后三天的评级基本稳定在pass,显示出对快测题目的适应性提升。文心一言4.5更是从61.25大幅跃升至84.39,趋势+23.1,但其均值仅69,基础仍显薄弱。

诚信评级波动成最大信号

本周最值得关注的并非单纯分数,而是诚信评级变化。DeepSeek V4 Pro、Gemini 2.5 Pro、Grok 4和GPT-o3均出现pass-warn-fail的反复切换。Gemini 3.1 Pro虽趋势持平,但第3天直接fail,第7天转为warn。诚信评级作为准入门槛,其频繁波动直接影响模型可信度评估。

高波动模型中,Claude Opus 4.7和GPT-5.5的稳定性分数分别达到69.9和69,表明回答一致性较低。结合行业背景,当前快测样本虽小,但连续7天已足够揭示模型在高压连续提问下的真实状态。

下周Full评测预判

基于本周趋势,下周Full评测中,DeepSeek V4 Pro和Gemini 2.5 Pro大概率继续承压,若无法解决一致性问题,核心_overall_display分数将继续下滑。GPT-5.5和Claude Sonnet 4.6则有望在材料约束与代码执行维度上进一步巩固优势。

连续快测的波动,已提前为Full评测画出分水岭。

模型间差距将继续拉大,诚信评级稳定的上升者将获得更多信任,而反复滑坡者则需在下一阶段给出实质性改进。


数据来源:赢政指数 (YZ Index) | Run #139 | 查看原始数据