GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分：2026 W21 Smoke 七日趋势

2026年05月24日 645 阅读 - 阅读来源: Winzheng Index

GPT-5.5 稳定性 Smoke评测诚信评级模型周报

GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分：2026 W21 Smoke 七日趋势

本周 Smoke 快测最突出的信号来自 GPT-5.5：七天内从首日60.58一路爬升至末日90.3，净涨29.7分，均值73.6却呈现明显上行通道。这与同期多数模型集体下滑形成鲜明对比。

下滑阵营：GPT-o3 与 DeepSeek 领跌

GPT-o3 从首日94.51 跌至末日58.08，趋势-36.4，均值仅73.8，跌幅在所有模型中最大。DeepSeek V4 Pro 同样大幅下滑，首日93.03 到末日74，趋势-19，均值81.1。更值得注意的是其诚信评级：前五日已出现多次 warn，第六日直接 fail 并延续至第七日。这不是偶然波动，而是模型在连续快测中出现明显退化信号。

豆包 Pro 同样值得警惕。首日97.75 到末日89.85，趋势-7.9，均值85.4，但其波动值高达43.7，说明答题一致性已明显下降。连续七天里有六天诚信评级为 pass，仅一天 warn，看似门槛勉强守住，实则核心能力在缓慢流失。

上升阵营：四模型逆势突围

除 GPT-5.5 外，文心一言4.5 从74 升至88.48（+14.5），Gemini 3.1 Pro 从75 升至88.7（+13.7），Qwen3 Max 从77.84 升至84.2（+6.4）。这四者均在均值偏低的情况下实现正向趋势，显示底层能力仍在迭代窗口期。

其中 GPT-5.5 与 Gemini 3.1 Pro 的上升曲线最陡，末日成绩已接近或超过多数老牌模型。这提示用户：当前 Smoke 快测对新版本迭代敏感，短期内可能出现“后来者居上”的剧烈排序变化。

波动率揭示稳定性隐患

稳定性维度（max(0,100-stddev×2)）直接反映模型多次回答同类题目的分数离散程度。Gemini 2.5 Pro 波动61.1、文心一言4.5 波动55、豆包 Pro 波动43.7，均远高于 GPT-5.5 的30.9。这意味着前三者在面对相似题目时，输出质量起伏极大，用户实际体验将极不稳定。

高波动往往伴随诚信评级反复。Gemini 2.5 Pro 第三日即 fail，第五日才恢复；文心一言4.5 七天内三次 fail、两次 warn，说明其在材料约束与代码执行两个主榜维度上均存在明显短板。

下周 Full 评测预判

基于当前趋势，GPT-5.5 与 Gemini 3.1 Pro 有望在下周 Full 评测中继续蚕食中游位置，而 GPT-o3 与 DeepSeek V4 Pro 则面临继续失血风险。尤其是 DeepSeek 连续 fail 的诚信记录，可能触发更严格的材料约束复核，直接影响其主榜排名。

行业背景显示，2026 年第二季度正是多厂商模型密集迭代窗口，Smoke 快测已提前捕捉到 GPT-5.5 与 Qwen3 Max 的上升势头。预计 Full 评测中，执行与 grounding 两个可审计维度将进一步放大当前趋势差距。

七天 Smoke 数据已经给出答案：不是所有模型都在进步，敢把成绩跌到58分的，才是真正需要用户警惕的信号。

数据来源：赢政指数 (YZ Index) | Run #129 | 查看原始数据

GPT-5.5 逆袭29.7分 GPT-o3 暴跌36.4分：2026 W21 Smoke 七日趋势

下滑阵营：GPT-o3 与 DeepSeek 领跌

上升阵营：四模型逆势突围

波动率揭示稳定性隐患

下周 Full 评测预判

相关测评

Winzheng Index GPT-o3 Smoke 评测主榜暴跌8.3分 代码执行从100跌至88.3

Winzheng Index Qwen3 Max主榜暴跌14.9分 代码执行从96.9骤降至65.6

Winzheng Index Smoke 7天数据：Gemini 2.5 Pro趋势34.3分领涨，GLM-4.6波动40.5分最剧烈

Winzheng Index GLM-4.6 材料约束 93.30 分却诚信 fail，代码执行 25.00 分拖累主榜

Winzheng Index GPT-o3 Smoke 评测主榜暴跌8.3分代码执行从100跌至88.3

Winzheng Index Qwen3 Max主榜暴跌14.9分代码执行从96.9骤降至65.6