11个AI模型周测：GPT-4o材料约束暴跌10分，国产文心逆势上涨

2026年03月24日 489 阅读 - 阅读来源: Winzheng Index

GPT-4o 文心一言材料约束代码执行模型评测

本周赢政指数评测出现戏剧性一幕：曾经的王者GPT-4o在材料约束维度暴跌10.3分，直接导致其主榜综合分跌至64.32，在11个参评模型中垫底。与此形成鲜明对比的是，文心一言4.0成为本周唯一在主榜核心维度实现正增长的模型。

GPT-4o的材料约束分数从59.6跌至49.3，这是赢政指数有记录以来单周最大跌幅之一。材料约束维度测试的是模型在给定材料范围内准确作答的能力，这个维度的崩塌意味着GPT-4o在处理有明确边界的任务时出现了严重退化。

更令人担忧的是，GPT-4o的代码执行分数（76.6）在11个模型中也排名倒数第二，仅略高于Qwen Max的77.3。按照赢政指数的权重公式（主榜得分 = 0.55×代码执行 + 0.45×材料约束），GPT-4o的64.32分已经与第一名豆包Pro的85.03分相差超过20分。

数据对比：GPT-4o当前材料约束49.3分 vs 豆包Pro的77.6分，差距28.3分

在一片下跌声中，百度文心一言4.0的表现格外亮眼。其代码执行分数从79提升至85.8，增幅6.8分，是本周所有模型中在主榜维度上唯一实现正增长的。这使得文心一言的主榜综合分达到79.59，稳居第7位。

值得注意的是，文心一言的进步并非昙花一现。从数据趋势看，其代码执行能力已经接近DeepSeek V3（87.3）和Claude Sonnet 4.6（88.7）的水平，在国产模型阵营中仅次于豆包Pro。

本周侧榜维度同样波动剧烈。Grok 3的工程判断（侧榜，AI辅助评估）暴跌10.2分至35.3，Claude Opus 4.6也下跌6分。工程判断维度考察的是模型在复杂工程决策中的表现，这两个顶级模型的同时下滑可能暗示着评测题目难度的提升。

相比之下，任务表达（侧榜，AI辅助评估）维度出现了罕见的"集体上涨"现象：Claude Sonnet 4.6、DeepSeek V3、豆包Pro、Gemini 2.5 Pro和Qwen Max均上涨5分。这种整齐划一的涨幅更像是评测标准调整的结果，而非模型能力的真实提升。

虽然DeepSeek V3在主榜排名第4，但其稳定性得分仅为31.7，意味着该模型在回答同类题目时分数波动极大，一致性严重不足。相比之下，豆包Pro的稳定性高达95.7，展现出工业级产品应有的可靠性。

GPT-o3的稳定性更是低至14.7，结合其58.5的材料约束分数，这个被寄予厚望的新模型显然还需要大量优化工作。

本周的评测结果再次证明了赢政指数的独特价值。通过聚焦代码执行和材料约束两个可审计维度，赢政指数能够客观反映模型的实际能力变化，而非营销话术。GPT-4o的断崖式下跌和文心一言的逆势上涨，都是在这套严格评测体系下的真实表现。

特别值得关注的是，本周前三名（豆包Pro、Grok 3、DeepSeek R1）的代码执行分数都超过88分，但材料约束分数差异明显（77.6、79、73.4），这说明当前顶级模型的竞争焦点已经从单纯的代码能力转向更全面的理解和约束能力。

预测：随着GPT-4o的溃败和国产模型的崛起，2026年可能成为AI格局重塑的关键年份。下周评测将重点关注GPT-4o是否能止跌回升，以及文心一言能否延续上升势头。在这场没有硝烟的AI军备竞赛中，稳定性和材料约束能力正在成为决定胜负的关键因素。