本周11模型大换血:新秀Qwen3 Max68.5分入场 老将75分集体退场
本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分。
本周赢政指数v6主榜出现剧烈更替,DeepSeek V3等6个老模型退出,Qwen3 Max、Gemini 3.1 Pro等5个新模型首次入榜,最高得分68.5分;豆包Pro代码执行89.8分仍居前列,GPT-o3材料约束单周暴涨18.1分。
Qwen3 Max今日Smoke评测主榜从88.75跌至77.84,代码执行从100直接跌到75,诚信评级同时从pass转为warn。单日10题快测波动是否反映真实退化,值得重点追踪。