赢政指数Smoke周报：文心一言4.5下滑37.2分，多模型波动超28

2026年06月28日 40 阅读 - 阅读来源: Winzheng Index

文心一言 4.5 Claude Sonnet 4.6 Smoke测试稳定性分析诚信评级

在赢政指数2026年6月23日至28日对11个模型的Smoke实测中，文心一言4.5从首日98.74分跌至末日61.52分，趋势-37.2，均值仅82.1，波动37.2，成为下滑幅度最大的模型。

多数模型末日集体回落

Claude Sonnet 4.6首日94.87分，末日70.52分，趋势-24.4，均值87.5，波动28.4。Claude Opus 4.7首日100分，末日71.47分，趋势-28.5，均值89.8，波动28.5。Gemini 2.5 Pro从96.18分跌至81.41分，趋势-14.8，均值90.9，波动22.6。Gemini 3.1 Pro从100分跌至91.21分，趋势-8.8，均值90.5，波动30.7。GPT-5.5从96.18分跌至84.18分，趋势-12，均值92.8，波动14.7。GPT-o3从96.81分跌至82.53分，趋势-14.3，均值91.6，波动17。Grok 4从100分跌至82.97分，趋势-17，均值93.3，波动18.5。DeepSeek V4 Pro从99.37分跌至87.35分，趋势-12，均值94.2，波动17.8。Qwen3 Max从74分跌至69.94分，趋势-4.1，均值81，波动28.1。只有豆包Pro从98.07分微升至98.61分，趋势0.5，均值95.8，波动16.6。

高波动模型需重点关注

文心一言4.5波动37.2、Gemini 3.1 Pro波动30.7、Claude Opus 4.7波动28.5、Claude Sonnet 4.6波动28.4、Qwen3 Max波动28.1，均超过28分。这些模型在7天内分数标准差较大，意味着同类题目多次回答结果差异明显。Smoke每日仅10题，样本虽小，但连续7天数据已显示末日得分普遍低于均值，说明模型在连续测试中一致性下降。

诚信评级变化释放信号

文心一言4.5诚信评级从warn转为pass，Qwen3 Max从fail转为warn再到pass。两家模型诚信评级均出现正向或稳定变化，但得分趋势仍为负值。诚信评级仅为准入门槛，不直接加分，评级改善后得分仍大幅下滑，说明模型能力波动独立于诚信维度。

下周Full评测可能走势

Smoke连续7天趋势显示，波动超过28分的模型在Full评测中大概率继续出现分数起伏。豆包Pro均值95.8且趋势0.5，可能是唯一能维持高位的模型。Claude系列、Gemini系列、GPT系列均值均在87.5至93.3区间，但末日得分已拉低整体表现。行业背景中，模型迭代通常伴随短期稳定性下降，当前数据支持这一推断。

连续7天Smoke数据表明，AI模型稳定性已从辅助指标变为决定性约束。

下周Full评测若延续相同题目分布，高波动模型的最终排名可能出现明显调整，豆包Pro则有机会凭借低波动优势保持领先。

数据来源：赢政指数 (YZ Index) | Run #201 | 查看原始数据

赢政指数Smoke周报：文心一言4.5下滑37.2分，多模型波动超28

多数模型末日集体回落

高波动模型需重点关注

诚信评级变化释放信号

下周Full评测可能走势

相关测评

Winzheng Index Claude Sonnet 4.6主榜91.77断层领先，GPT-o3执行50分直接垫底

Winzheng Index Claude Sonnet 4.6 Smoke评测主榜暴跌25.9分 代码执行从100降至50

Winzheng Index Qwen3 Max Smoke评测主榜暴跌12分 诚信评级从pass转为fail

Winzheng Index 文心一言4.5 Smoke主榜暴跌22.2分 代码执行直接腰斩至50分

Winzheng Index Claude Sonnet 4.6 Smoke评测主榜暴跌25.9分代码执行从100降至50

Winzheng Index Qwen3 Max Smoke评测主榜暴跌12分诚信评级从pass转为fail

Winzheng Index 文心一言4.5 Smoke主榜暴跌22.2分代码执行直接腰斩至50分