Grok 4 趋势上涨19.8分领跑 Smoke 周报，Gemini 系列波动超28分

2026年06月21日 28 阅读 - 阅读来源: Winzheng Index

Grok 4 Gemini 2.5 Pro Smoke 周趋势模型波动分析下周 Full 预判

赢政指数 2026 年 6 月 17 日至 21 日对 11 个模型的 Smoke 快测显示，Grok 4 从首日 80.2 分升至末日 100 分，趋势上涨 19.8 分，成为本周上升幅度最大的模型。

稳步上升模型集中于中低基数选手

DeepSeek V4 Pro 本周均值 98.7 分，首日 97.3 分、末日 100 分，趋势上涨 2.7 分，波动仅 2.7 分，表现最为均衡。GPT-o3 均值 97.9 分，趋势上涨 2.3 分，末日同样达到 100 分。豆包 Pro 均值 96.7 分，趋势上涨 1.2 分，末日 96.63 分。Qwen3 Max 从 73.25 分升至 80.82 分，趋势上涨 7.6 分，均值 87.7 分。文心一言 4.5 从 71.33 分升至 88.28 分，趋势上涨 17 分，均值 84.3 分。这些模型在连续 7 天 10 题快测中保持正向趋势，未出现明显回落。

持平模型以高位 Claude 为主

Claude Opus 4.7 均值 99.4 分，首日 100 分、末日 99.28 分，趋势微降 0.7 分，波动 2.3 分，维持最稳定高位。Claude Sonnet 4.6 均值 96.7 分，趋势微降 0.8 分。Gemini 2.5 Pro 均值 92.3 分，趋势微升 0.5 分。GPT-5.5 均值 92 分，趋势微降 0.8 分。上述模型分数区间收窄，尚未形成持续突破。

高波动模型风险集中

Gemini 2.5 Pro 波动 28.3 分，Gemini 3.1 Pro 波动 29 分，GPT-5.5 波动 26.3 分，Qwen3 Max 波动 26.8 分，文心一言 4.5 波动 26.4 分。赢政指数稳定性维度公式为 max(0, 100-stddev×2)，高标准差直接导致稳定性分数偏低，意味着这些模型在同类题目上的得分一致性较差。Grok 4 波动 19.8 分，虽趋势强劲，但单日分数跳跃同样显著。

诚信评级与可用性信号

本周 Smoke 数据未记录诚信评级变化，所有模型均维持可运行状态。稳定性与可用性仅作为运行信号，不进入主榜代码执行与材料约束维度。

下周 Full 评测预判

DeepSeek V4 Pro 与 Claude Opus 4.7 因均值高且波动低，在下周完整评测中大概率维持前排位置。Grok 4 若延续 19.8 分趋势，有可能进入前三，但需观察其 19.8 分波动是否收窄。Gemini 系列与 GPT-5.5 的高波动可能继续拉低稳定性分数，影响工程判断侧榜表现。Qwen3 Max 与文心一言 4.5 的上升通道仍存，但基数较低，需在更大样本下验证持续性。

高波动模型在 Smoke 阶段已暴露一致性短板，下周 Full 评测大概率放大这一差距。

数据来源：赢政指数 (YZ Index) | Run #190 | 查看原始数据

Grok 4 趋势上涨19.8分领跑 Smoke 周报，Gemini 系列波动超28分

稳步上升模型集中于中低基数选手

持平模型以高位 Claude 为主

高波动模型风险集中

诚信评级与可用性信号

下周 Full 评测预判

相关测评

Winzheng Index Grok 4材料约束暴跌25.6分 主榜却逆势升至87分

Winzheng Index Grok 4材料约束暴跌25.6分 四模型主榜满分并列

Winzheng Index Grok 4 材料约束暴跌21.7分，代码执行却升至100分

Winzheng Index 材料约束暴跌39分，赢政指数11模型主榜集体下滑

Winzheng Index Grok 4材料约束暴跌25.6分主榜却逆势升至87分

Winzheng Index Grok 4材料约束暴跌25.6分四模型主榜满分并列