Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势

2026年06月14日 493 阅读 - 阅读来源: Winzheng Index

Claude Opus 4.7 GPT-5.5 Smoke快测诚信评级波动模型稳定性

在2026年6月12日至14日连续三天的Smoke快测中，Claude Opus 4.7从首日96.83分跌至末日69.91分，降幅达26.9分，成为降幅最大的模型。

唯一上升模型的表现

GPT-5.5是本期唯一呈现上升趋势的模型，首日92.19分、末日95.24分，趋势值+3.1，均值90.7，波动10.5。其诚信评级在三天内从pass转为warn再回到pass，显示出一定的不稳定性，但整体得分仍保持在90分以上区间。

Claude系列双双重挫

Claude Opus 4.7与Claude Sonnet 4.6同时出现大幅下滑。Claude Sonnet 4.6从94.9分跌至69.35分，趋势-25.6，波动25.6，且诚信评级在warn-pass-warn之间反复。两款模型的均值分别为85.8和82.8，末日得分已接近70分以下，显示出在连续快测中一致性明显下降。

波动最大的三款模型

除Claude两款外，Qwen3 Max波动31.1分，豆包Pro波动31.1分，Gemini 2.5 Pro波动19.3分。这些模型的标准差较大，意味着同类题目在不同日期的得分差异显著。Qwen3 Max从72.91分一路跌至52.89分，均值仅69.9，是本期均值最低的模型之一。

诚信评级变化的信号

本期出现诚信评级波动的模型包括Claude Sonnet 4.6与GPT-5.5。Claude Sonnet 4.6的warn-pass-warn路径与得分剧烈下滑同步，GPT-5.5则在pass-warn-pass之间切换但得分仍小幅上升。诚信评级作为准入门槛，其反复出现通常预示模型在事实一致性或输出规范上存在潜在问题。

持平与小幅下滑模型

GPT-o3保持相对平稳，首日90.51分、末日91.43分，趋势+0.9，波动仅8.2，是所有模型中波动最小的一款。Gemini 3.1 Pro与Grok 4分别下降4.5分和13.2分，末日得分仍维持在80分以上，降幅相对温和。

下周Full评测预判

基于Smoke三天数据，GPT-5.5有望在下周Full评测中维持或小幅提升其主榜位置，而Claude Opus 4.7与Claude Sonnet 4.6若延续当前波动幅度，核心_overall_display得分可能继续承压。波动超过25分的模型需重点观察其 grounding 与 execution 维度的稳定性。

连续三天Smoke快测已揭示：得分波动大与诚信评级反复，往往先于主榜崩盘出现。

数据来源：赢政指数 (YZ Index) | Run #170 | 查看原始数据

Claude Opus 4.7跌26.9分 GPT-5.5逆势升3.1分 Smoke三天趋势

唯一上升模型的表现

Claude系列双双重挫

波动最大的三款模型

诚信评级变化的信号

持平与小幅下滑模型

下周Full评测预判

相关测评

Winzheng Index Claude Opus 4.7 均值 86.9 分领跑 GPT-o3 7 天下跌 30.5 分

Winzheng Index Claude Opus 4.7 与 GPT-5.5并列86.5分：2026-07-30 Smoke快测数据简报

Winzheng Index Claude双雄涨6.8分 Gemini独跌5.6 WDCD守约榜剧烈洗牌

Winzheng Index WDCD三轮锚点测试：R3诚信率仅45.5% GPT-5.5与Qwen3 Max崩盘率20%