本周Smoke快测连续7天10题数据,直接揭示了两极分化:文心一言4.5以+53.4的趋势从32.63飙升至86.05,成为最大黑马,而GPT-o3以-7.8的跌幅从91.81滑落到84.03,领跌所有主流模型。
上升阵营:三模型逆势突围
Claude Sonnet 4.6与豆包Pro并列第二,均录得+23.9趋势,末日分数同为86.05。Sonnet均值84.5,波动36.1,显示其在连续测试中逐步稳定输出逻辑链。豆包Pro均值81.6,波动31.3,说明其在中文场景下的执行维度正快速追赶。
文心一言4.5的爆发最值得关注。首日仅32.63,末日却与头部模型持平,均值57.2却伴随57的极高波动。这表明其单日发挥极不均衡,极可能在特定题型上出现“全对或全错”的断崖式表现。
下滑阵营:GPT-o3与Grok问题最大
GPT-o3均值仅80.7,波动29.2,趋势-7.8,跌幅在所有模型中最大。首日91.81的领先优势在第4天后持续流失,暗示其在材料约束维度上出现系统性松动。Grok 4均值低至61.5,波动79.2为全场最高,诚信评级甚至出现连续两日fail,说明其回答一致性已严重崩坏。
Claude Opus 4.7和Gemini 3.1 Pro虽仍处高位,但趋势分别为-3.4和-4.3,均值88.8与83.6的差距正在缩小。Qwen3 Max表现相对平稳,波动13.9为最低,但趋势仍为-1.3,未能守住首日优势。
诚信评级成为核心风险信号
7天内6个模型出现fail或warn记录。Grok 4连续fail两天,Gemini 3.1 Pro与DeepSeek V4 Pro各有一次fail,GPT-5.5末期连续三天warn。这些变化并非偶然,反映出模型在面对连续快测时, grounding能力出现明显衰减。
尤其需要警惕的是,部分模型在诚信评级恢复后,分数并未同步回升。这说明warn/fail并非简单的数据噪声,而是模型底层能力在特定场景下的真实退化。
下周Full评测预判
基于当前趋势,文心一言若能将波动控制在30以下,有望在下周Full评测中进入前五。反之,若其高波动延续,极可能被Claude Sonnet与豆包Pro反超。GPT-o3与Grok则需重点观察执行维度是否能止跌,否则将被进一步挤出第一梯队。
连续7天小样本已足够暴露出模型的真实稳定性差异。那些在Smoke中波动超过30分的模型,在Full评测的长上下文与复杂推理场景下,极大概率继续放大差距。
短暂的爆发只能带来周热度,稳定的攀升才能决定月排名。
数据来源:赢政指数 (YZ Index) | Run #119 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接