赢政指数 2026 年 6 月 17 日至 21 日对 11 个模型的 Smoke 快测显示,Grok 4 从首日 80.2 分升至末日 100 分,趋势上涨 19.8 分,成为本周上升幅度最大的模型。
稳步上升模型集中于中低基数选手
DeepSeek V4 Pro 本周均值 98.7 分,首日 97.3 分、末日 100 分,趋势上涨 2.7 分,波动仅 2.7 分,表现最为均衡。GPT-o3 均值 97.9 分,趋势上涨 2.3 分,末日同样达到 100 分。豆包 Pro 均值 96.7 分,趋势上涨 1.2 分,末日 96.63 分。Qwen3 Max 从 73.25 分升至 80.82 分,趋势上涨 7.6 分,均值 87.7 分。文心一言 4.5 从 71.33 分升至 88.28 分,趋势上涨 17 分,均值 84.3 分。这些模型在连续 7 天 10 题快测中保持正向趋势,未出现明显回落。
持平模型以高位 Claude 为主
Claude Opus 4.7 均值 99.4 分,首日 100 分、末日 99.28 分,趋势微降 0.7 分,波动 2.3 分,维持最稳定高位。Claude Sonnet 4.6 均值 96.7 分,趋势微降 0.8 分。Gemini 2.5 Pro 均值 92.3 分,趋势微升 0.5 分。GPT-5.5 均值 92 分,趋势微降 0.8 分。上述模型分数区间收窄,尚未形成持续突破。
高波动模型风险集中
Gemini 2.5 Pro 波动 28.3 分,Gemini 3.1 Pro 波动 29 分,GPT-5.5 波动 26.3 分,Qwen3 Max 波动 26.8 分,文心一言 4.5 波动 26.4 分。赢政指数稳定性维度公式为 max(0, 100-stddev×2),高标准差直接导致稳定性分数偏低,意味着这些模型在同类题目上的得分一致性较差。Grok 4 波动 19.8 分,虽趋势强劲,但单日分数跳跃同样显著。
诚信评级与可用性信号
本周 Smoke 数据未记录诚信评级变化,所有模型均维持可运行状态。稳定性与可用性仅作为运行信号,不进入主榜代码执行与材料约束维度。
下周 Full 评测预判
DeepSeek V4 Pro 与 Claude Opus 4.7 因均值高且波动低,在下周完整评测中大概率维持前排位置。Grok 4 若延续 19.8 分趋势,有可能进入前三,但需观察其 19.8 分波动是否收窄。Gemini 系列与 GPT-5.5 的高波动可能继续拉低稳定性分数,影响工程判断侧榜表现。Qwen3 Max 与文心一言 4.5 的上升通道仍存,但基数较低,需在更大样本下验证持续性。
高波动模型在 Smoke 阶段已暴露一致性短板,下周 Full 评测大概率放大这一差距。
数据来源:赢政指数 (YZ Index) | Run #190 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接