本周11模型大换血:新秀Qwen3 Max68.5分入场 老将75分集体退场

本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分。

本周赢政指数v6主榜核心发现:6款老模型一次性退出,5款新模型同时入场,主榜前十格局在单周内完成一次大范围替换。

退出与入场:数据直接反映迭代速度

DeepSeek V3主榜分从v5时期的75.1直接清零,DeepSeek R1、文心一言4.0、Grok 3、Qwen Max、Claude Opus 4.6、GPT-4o六款模型均在本周退出评测。同一周期,Qwen3 Max以68.5分、文心一言4.5以67.0分、DeepSeek V4 Pro以65.3分、Gemini 3.1 Pro以65.2分、Grok 4以64.9分、Claude Opus 4.7以63.9分、GPT-5.5以62.9分七款新模型进入主榜。

这种“旧的清零、新的从头打分”的操作,直接把主榜平均分拉低约4.8分,显示评测方正在用更高版本或全新训练的模型替换旧基准。

代码执行仍是核心胜负手

当前主榜第一Claude Sonnet 4.6代码执行86.80分,豆包Pro以89.80分反超成为代码执行单项第一。DeepSeek V4 Pro代码执行86.70分、Grok 4 86.80分,均逼近豆包Pro,说明新模型在代码能力上并未出现断层。

材料约束维度则出现明显分化:GPT-o3单周材料约束提升18.1分,显示其对指令遵循和上下文一致性有针对性优化;反观豆包Pro材料约束下降5.7分,Gemini 2.5 Pro下降5分,说明部分模型在长上下文或多轮约束下出现回退。

工程判断侧榜(AI辅助评估)小幅波动

Claude Sonnet 4.6工程判断52.90分,Claude Opus 4.7 55.80分,两款Claude模型在工程判断侧榜保持领先。Qwen3 Max首次入场即拿45.20分,与Grok 4持平,说明新模型在需求拆解与方案可行性上已接近一线水平。

主榜真实排序与权重影响

按core_overall=0.55×代码执行+0.45×材料约束计算,豆包Pro虽代码执行最高,但材料约束70.80分拖累,最终主榜81.25分仅次于Claude Sonnet 4.6的83.02分。Gemini 2.5 Pro主榜79.04分,材料约束71.50分是其主要短板。

新入榜的Qwen3 Max主榜78.98分,代码执行85.50分、材料约束71.00分,综合表现已超过GPT-5.5和DeepSeek V4 Pro,首次登场即进入前六,冲击力明显。

老模型集体退场不是失败,而是厂商把资源集中到下一代产品;新模型68.5分首秀,意味着下一轮主榜争夺将更加激烈。

从当前排名看,Claude Sonnet 4.6与豆包Pro仍稳居前二,但Grok 4、Claude Opus 4.7、Gemini 2.5 Pro、Qwen3 Max四款模型已形成第二梯队,彼此差距在3分以内。

下周值得重点跟踪GPT-o3材料约束是否能延续18.1分的增幅,以及豆包Pro能否把材料约束重新拉回72分以上。若两项同时发生,主榜前三名次将再次洗牌。

赢政指数v6的规则决定了,只有代码执行和材料约束两个可审计维度决定主榜名次,其余均为侧榜或运行信号。厂商若想快速提升排名,必须在这两个维度同时发力,单点突破已不足以改变格局。


数据来源:赢政指数 (YZ Index) | Run #122 | 查看原始数据