本周11模型大换血：新秀Qwen3 Max68.5分入场老将75分集体退场

May 18, 2026 21 approx.4min Winzheng Index

Qwen3 Max 代码执行模型迭代主榜洗牌评测信号

本周赢政指数v6主榜核心发现：6款老模型一次性退出，5款新模型同时入场，主榜前十格局在单周内完成一次大范围替换。

退出与入场：数据直接反映迭代速度

DeepSeek V3主榜分从v5时期的75.1直接清零，DeepSeek R1、文心一言4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4o六款模型均在本周退出评测。同一周期，Qwen3 Max以68.5分、文心一言4.5以67.0分、DeepSeek V4 Pro以65.3分、Gemini 3.1 Pro以65.2分、Grok 4以64.9分、Claude Opus 4.7以63.9分、GPT-5.5以62.9分七款新模型进入主榜。

这种“旧的清零、新的从头打分”的操作，直接把主榜平均分拉低约4.8分，显示评测方正在用更高版本或全新训练的模型替换旧基准。

代码执行仍是核心胜负手

当前主榜第一Claude Sonnet 4.6代码执行86.80分，豆包Pro以89.80分反超成为代码执行单项第一。DeepSeek V4 Pro代码执行86.70分、Grok 4 86.80分，均逼近豆包Pro，说明新模型在代码能力上并未出现断层。

材料约束维度则出现明显分化：GPT-o3单周材料约束提升18.1分，显示其对指令遵循和上下文一致性有针对性优化；反观豆包Pro材料约束下降5.7分，Gemini 2.5 Pro下降5分，说明部分模型在长上下文或多轮约束下出现回退。

工程判断侧榜（AI辅助评估）小幅波动

Claude Sonnet 4.6工程判断52.90分，Claude Opus 4.7 55.80分，两款Claude模型在工程判断侧榜保持领先。Qwen3 Max首次入场即拿45.20分，与Grok 4持平，说明新模型在需求拆解与方案可行性上已接近一线水平。

主榜真实排序与权重影响

按core_overall=0.55×代码执行+0.45×材料约束计算，豆包Pro虽代码执行最高，但材料约束70.80分拖累，最终主榜81.25分仅次于Claude Sonnet 4.6的83.02分。Gemini 2.5 Pro主榜79.04分，材料约束71.50分是其主要短板。

新入榜的Qwen3 Max主榜78.98分，代码执行85.50分、材料约束71.00分，综合表现已超过GPT-5.5和DeepSeek V4 Pro，首次登场即进入前六，冲击力明显。

老模型集体退场不是失败，而是厂商把资源集中到下一代产品；新模型68.5分首秀，意味着下一轮主榜争夺将更加激烈。

从当前排名看，Claude Sonnet 4.6与豆包Pro仍稳居前二，但Grok 4、Claude Opus 4.7、Gemini 2.5 Pro、Qwen3 Max四款模型已形成第二梯队，彼此差距在3分以内。

下周值得重点跟踪GPT-o3材料约束是否能延续18.1分的增幅，以及豆包Pro能否把材料约束重新拉回72分以上。若两项同时发生，主榜前三名次将再次洗牌。

赢政指数v6的规则决定了，只有代码执行和材料约束两个可审计维度决定主榜名次，其余均为侧榜或运行信号。厂商若想快速提升排名，必须在这两个维度同时发力，单点突破已不足以改变格局。

数据来源：赢政指数 (YZ Index) | Run #122 | 查看原始数据

退出与入场：数据直接反映迭代速度

代码执行仍是核心胜负手

工程判断侧榜（AI辅助评估）小幅波动

主榜真实排序与权重影响

Related Articles