Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势

在2026年6月12日至14日连续三天的Smoke快测中,Claude Opus 4.7从首日96.83分跌至末日69.91分,降幅达26.9分,成为降幅最大的模型。

唯一上升模型的表现

GPT-5.5是本期唯一呈现上升趋势的模型,首日92.19分、末日95.24分,趋势值+3.1,均值90.7,波动10.5。其诚信评级在三天内从pass转为warn再回到pass,显示出一定的不稳定性,但整体得分仍保持在90分以上区间。

Claude系列双双重挫

Claude Opus 4.7与Claude Sonnet 4.6同时出现大幅下滑。Claude Sonnet 4.6从94.9分跌至69.35分,趋势-25.6,波动25.6,且诚信评级在warn-pass-warn之间反复。两款模型的均值分别为85.8和82.8,末日得分已接近70分以下,显示出在连续快测中一致性明显下降。

波动最大的三款模型

除Claude两款外,Qwen3 Max波动31.1分,豆包Pro波动31.1分,Gemini 2.5 Pro波动19.3分。这些模型的标准差较大,意味着同类题目在不同日期的得分差异显著。Qwen3 Max从72.91分一路跌至52.89分,均值仅69.9,是本期均值最低的模型之一。

诚信评级变化的信号

本期出现诚信评级波动的模型包括Claude Sonnet 4.6与GPT-5.5。Claude Sonnet 4.6的warn-pass-warn路径与得分剧烈下滑同步,GPT-5.5则在pass-warn-pass之间切换但得分仍小幅上升。诚信评级作为准入门槛,其反复出现通常预示模型在事实一致性或输出规范上存在潜在问题。

持平与小幅下滑模型

GPT-o3保持相对平稳,首日90.51分、末日91.43分,趋势+0.9,波动仅8.2,是所有模型中波动最小的一款。Gemini 3.1 Pro与Grok 4分别下降4.5分和13.2分,末日得分仍维持在80分以上,降幅相对温和。

下周Full评测预判

基于Smoke三天数据,GPT-5.5有望在下周Full评测中维持或小幅提升其主榜位置,而Claude Opus 4.7与Claude Sonnet 4.6若延续当前波动幅度,核心_overall_display得分可能继续承压。波动超过25分的模型需重点观察其 grounding 与 execution 维度的稳定性。

连续三天Smoke快测已揭示:得分波动大与诚信评级反复,往往先于主榜崩盘出现。

数据来源:赢政指数 (YZ Index) | Run #170 | 查看原始数据