本周 Smoke 快测最突出的信号来自 GPT-5.5:七天内从首日60.58一路爬升至末日90.3,净涨29.7分,均值73.6却呈现明显上行通道。这与同期多数模型集体下滑形成鲜明对比。
下滑阵营:GPT-o3 与 DeepSeek 领跌
GPT-o3 从首日94.51 跌至末日58.08,趋势-36.4,均值仅73.8,跌幅在所有模型中最大。DeepSeek V4 Pro 同样大幅下滑,首日93.03 到末日74,趋势-19,均值81.1。更值得注意的是其诚信评级:前五日已出现多次 warn,第六日直接 fail 并延续至第七日。这不是偶然波动,而是模型在连续快测中出现明显退化信号。
豆包 Pro 同样值得警惕。首日97.75 到末日89.85,趋势-7.9,均值85.4,但其波动值高达43.7,说明答题一致性已明显下降。连续七天里有六天诚信评级为 pass,仅一天 warn,看似门槛勉强守住,实则核心能力在缓慢流失。
上升阵营:四模型逆势突围
除 GPT-5.5 外,文心一言4.5 从74 升至88.48(+14.5),Gemini 3.1 Pro 从75 升至88.7(+13.7),Qwen3 Max 从77.84 升至84.2(+6.4)。这四者均在均值偏低的情况下实现正向趋势,显示底层能力仍在迭代窗口期。
其中 GPT-5.5 与 Gemini 3.1 Pro 的上升曲线最陡,末日成绩已接近或超过多数老牌模型。这提示用户:当前 Smoke 快测对新版本迭代敏感,短期内可能出现“后来者居上”的剧烈排序变化。
波动率揭示稳定性隐患
稳定性维度(max(0,100-stddev×2))直接反映模型多次回答同类题目的分数离散程度。Gemini 2.5 Pro 波动61.1、文心一言4.5 波动55、豆包 Pro 波动43.7,均远高于 GPT-5.5 的30.9。这意味着前三者在面对相似题目时,输出质量起伏极大,用户实际体验将极不稳定。
高波动往往伴随诚信评级反复。Gemini 2.5 Pro 第三日即 fail,第五日才恢复;文心一言4.5 七天内三次 fail、两次 warn,说明其在材料约束与代码执行两个主榜维度上均存在明显短板。
下周 Full 评测预判
基于当前趋势,GPT-5.5 与 Gemini 3.1 Pro 有望在下周 Full 评测中继续蚕食中游位置,而 GPT-o3 与 DeepSeek V4 Pro 则面临继续失血风险。尤其是 DeepSeek 连续 fail 的诚信记录,可能触发更严格的材料约束复核,直接影响其主榜排名。
行业背景显示,2026 年第二季度正是多厂商模型密集迭代窗口,Smoke 快测已提前捕捉到 GPT-5.5 与 Qwen3 Max 的上升势头。预计 Full 评测中,执行与 grounding 两个可审计维度将进一步放大当前趋势差距。
七天 Smoke 数据已经给出答案:不是所有模型都在进步,敢把成绩跌到58分的,才是真正需要用户警惕的信号。
数据来源:赢政指数 (YZ Index) | Run #129 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接