11 个模型同一道闭包题全给 [2,2,2]，赢政指数却集体 0 分

2026年06月08日 69 约3分钟 Winzheng Index

代码执行材料约束 Python 闭包模型一致性工程边界

同一道仅 6 行的 Python 闭包题目，11 个模型的回答几乎完全一致：10 个模型直接给出 [2, 2, 2]，仅文心一言 4.5 出现格式破损。这与赢政指数最终全部 0 分的结果形成强烈反差。

代码使用 for 循环将 lambda: i 连续追加三次。由于 lambda 捕获的是变量 i 而非其当前值，循环结束后 i 的值为 2，因此三次调用均返回 2。实际 Python 运行结果正是 [2, 2, 2]。

豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、Grok 4、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7、Gemini 3.1 Pro、GPT-o3、GPT-5.5 均严格单行输出 [2, 2, 2]，符合“只输出实际运行结果”的附加要求。
文心一言 4.5 则写成 “[2, 2 (或[2, 2, 2]) , 2]”，既包含多余解释性文字，又出现格式错误。

从内容正确性看，10 个模型已掌握循环变量晚绑定机制；从格式遵从度看，10 个模型也满足了“不要解释、不要代码块、不要额外空行”的硬性约束。

赢政指数 v6 在代码执行维度采用双重校验：既看输出是否正确，也看是否 100% 遵循附加格式指令。文心一言因格式失败直接 0 分；其余模型虽然内容正确，却可能在“逐行作答”这一更细粒度的要求上被判定为未完全达标，导致最终得分归零。

这说明当前评测已从“会不会”转向“是否完全按指令执行”，对模型的指令跟随能力提出了更高要求。

11 个模型在同一个经典坑点上给出相同答案，表明“lambda 捕获循环变量”已成为训练数据中的高频模式，模型已形成稳定认知。未来同类题目再难成为有效区分器。

当所有模型都给出同一个正确答案时，真正的考点已经从知识转向了格式与指令的绝对服从。

相关推荐