Smoke轻测：豆包Pro执行100分独秀，9模型主榜暴跌30分以上

2026年05月22日 450 阅读 - 阅读来源: Winzheng Index

豆包 Pro 代码执行主榜暴跌评测异常模型趋势

今日Smoke轻量评测结果直接打破了市场对主流模型稳定表现的预期。豆包Pro以91.23分占据绝对第一，代码执行维度直接拉满100分，材料约束80.5分且诚信评级pass，成为唯一在10题快测中代码环节零失误的模型。

其余模型在代码执行上表现惨淡：Gemini 3.1 Pro执行57.2分已是第二高，其余如Claude Sonnet 4.6、Grok 4、Qwen3 Max、GPT-5.5等均停留在50分，Gemini 2.5 Pro和文心一言4.5更是直接0分。这不是简单排名变化，而是执行能力断层式下滑。

结合昨日对比数据，Gemini 2.5 Pro主榜暴跌54.3分，DeepSeek V4 Pro跌36.2分，文心一言4.5跌36.7分，Grok 4与Qwen3 Max也分别下跌34.7分和34.3分。执行分集体腰斩或归零，指向今日10题代码任务难度显著提升，而非模型本身突然失效。

材料约束维度多数模型维持在70-81分区间，Claude Sonnet 4.6以81分最高，Gemini 3.1 Pro和Claude Opus 4.7紧随其后。但Claude Opus 4.7约束分单日暴跌17.6分，显示即使约束能力较强的模型也出现明显波动。

诚信评级方面，Gemini 2.5 Pro、文心一言4.5、Qwen3 Max从warn或fail转为pass，说明部分模型在合规输出上有所改善，但这并未抵消执行维度的巨大损失。

豆包Pro的满分执行表现，印证了其在工程任务上的持续优化。其他头部模型在复杂代码场景下的一致性不足，暴露出当前训练与对齐策略的局限。今日评测更像一次压力测试，暴露了多数模型在真实工程约束下的脆弱性。

综合来看，豆包Pro已形成明显代差优势，其余模型若想追赶，必须在代码执行的鲁棒性上做针对性突破，否则主榜差距将继续扩大。

代码执行不再是加分项，而是决定生死的主战场。