赢政指数Smoke周报:文心一言4.5下滑37.2分,多模型波动超28

在赢政指数2026年6月23日至28日对11个模型的Smoke实测中,文心一言4.5从首日98.74分跌至末日61.52分,趋势-37.2,均值仅82.1,波动37.2,成为下滑幅度最大的模型。

多数模型末日集体回落

Claude Sonnet 4.6首日94.87分,末日70.52分,趋势-24.4,均值87.5,波动28.4。Claude Opus 4.7首日100分,末日71.47分,趋势-28.5,均值89.8,波动28.5。Gemini 2.5 Pro从96.18分跌至81.41分,趋势-14.8,均值90.9,波动22.6。Gemini 3.1 Pro从100分跌至91.21分,趋势-8.8,均值90.5,波动30.7。GPT-5.5从96.18分跌至84.18分,趋势-12,均值92.8,波动14.7。GPT-o3从96.81分跌至82.53分,趋势-14.3,均值91.6,波动17。Grok 4从100分跌至82.97分,趋势-17,均值93.3,波动18.5。DeepSeek V4 Pro从99.37分跌至87.35分,趋势-12,均值94.2,波动17.8。Qwen3 Max从74分跌至69.94分,趋势-4.1,均值81,波动28.1。只有豆包Pro从98.07分微升至98.61分,趋势0.5,均值95.8,波动16.6。

高波动模型需重点关注

文心一言4.5波动37.2、Gemini 3.1 Pro波动30.7、Claude Opus 4.7波动28.5、Claude Sonnet 4.6波动28.4、Qwen3 Max波动28.1,均超过28分。这些模型在7天内分数标准差较大,意味着同类题目多次回答结果差异明显。Smoke每日仅10题,样本虽小,但连续7天数据已显示末日得分普遍低于均值,说明模型在连续测试中一致性下降。

诚信评级变化释放信号

文心一言4.5诚信评级从warn转为pass,Qwen3 Max从fail转为warn再到pass。两家模型诚信评级均出现正向或稳定变化,但得分趋势仍为负值。诚信评级仅为准入门槛,不直接加分,评级改善后得分仍大幅下滑,说明模型能力波动独立于诚信维度。

下周Full评测可能走势

Smoke连续7天趋势显示,波动超过28分的模型在Full评测中大概率继续出现分数起伏。豆包Pro均值95.8且趋势0.5,可能是唯一能维持高位的模型。Claude系列、Gemini系列、GPT系列均值均在87.5至93.3区间,但末日得分已拉低整体表现。行业背景中,模型迭代通常伴随短期稳定性下降,当前数据支持这一推断。

连续7天Smoke数据表明,AI模型稳定性已从辅助指标变为决定性约束。

下周Full评测若延续相同题目分布,高波动模型的最终排名可能出现明显调整,豆包Pro则有机会凭借低波动优势保持领先。


数据来源:赢政指数 (YZ Index) | Run #201 | 查看原始数据