7天Smoke快测：文心一言飙升53分，GPT-o3领跌7.8

2026年05月17日 501 阅读 - 阅读来源: Winzheng Index

文心一言 GPT-o3 Smoke评测模型波动诚信评级

本周Smoke快测连续7天10题数据，直接揭示了两极分化：文心一言4.5以+53.4的趋势从32.63飙升至86.05，成为最大黑马，而GPT-o3以-7.8的跌幅从91.81滑落到84.03，领跌所有主流模型。

Claude Sonnet 4.6与豆包Pro并列第二，均录得+23.9趋势，末日分数同为86.05。Sonnet均值84.5，波动36.1，显示其在连续测试中逐步稳定输出逻辑链。豆包Pro均值81.6，波动31.3，说明其在中文场景下的执行维度正快速追赶。

文心一言4.5的爆发最值得关注。首日仅32.63，末日却与头部模型持平，均值57.2却伴随57的极高波动。这表明其单日发挥极不均衡，极可能在特定题型上出现“全对或全错”的断崖式表现。

GPT-o3均值仅80.7，波动29.2，趋势-7.8，跌幅在所有模型中最大。首日91.81的领先优势在第4天后持续流失，暗示其在材料约束维度上出现系统性松动。Grok 4均值低至61.5，波动79.2为全场最高，诚信评级甚至出现连续两日fail，说明其回答一致性已严重崩坏。

Claude Opus 4.7和Gemini 3.1 Pro虽仍处高位，但趋势分别为-3.4和-4.3，均值88.8与83.6的差距正在缩小。Qwen3 Max表现相对平稳，波动13.9为最低，但趋势仍为-1.3，未能守住首日优势。

7天内6个模型出现fail或warn记录。Grok 4连续fail两天，Gemini 3.1 Pro与DeepSeek V4 Pro各有一次fail，GPT-5.5末期连续三天warn。这些变化并非偶然，反映出模型在面对连续快测时， grounding能力出现明显衰减。

尤其需要警惕的是，部分模型在诚信评级恢复后，分数并未同步回升。这说明warn/fail并非简单的数据噪声，而是模型底层能力在特定场景下的真实退化。

基于当前趋势，文心一言若能将波动控制在30以下，有望在下周Full评测中进入前五。反之，若其高波动延续，极可能被Claude Sonnet与豆包Pro反超。GPT-o3与Grok则需重点观察执行维度是否能止跌，否则将被进一步挤出第一梯队。

连续7天小样本已足够暴露出模型的真实稳定性差异。那些在Smoke中波动超过30分的模型，在Full评测的长上下文与复杂推理场景下，极大概率继续放大差距。

短暂的爆发只能带来周热度，稳定的攀升才能决定月排名。