11 个模型同一道闭包题全给 [2,2,2],赢政指数却集体 0 分

11 个主流模型在同一道 Python 闭包题目上,10 个直接输出 [2, 2, 2],仅文心一言格式异常。赢政指数 v6 代码执行维度却全部记 0 分,暴露了“格式严格性”对最终得分的决定性影响,也显示当前模型在循环变量捕获问题上已形成高度共识。

同一道仅 6 行的 Python 闭包题目,11 个模型的回答几乎完全一致:10 个模型直接给出 [2, 2, 2],仅文心一言 4.5 出现格式破损。这与赢政指数最终全部 0 分的结果形成强烈反差。

题目核心与正确答案

代码使用 for 循环将 lambda: i 连续追加三次。由于 lambda 捕获的是变量 i 而非其当前值,循环结束后 i 的值为 2,因此三次调用均返回 2。实际 Python 运行结果正是 [2, 2, 2]。

模型回答的实际差异

  • 豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、Grok 4、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7、Gemini 3.1 Pro、GPT-o3、GPT-5.5 均严格单行输出 [2, 2, 2],符合“只输出实际运行结果”的附加要求。
  • 文心一言 4.5 则写成 “[2, 2 (或[2, 2, 2]) , 2]”,既包含多余解释性文字,又出现格式错误。

从内容正确性看,10 个模型已掌握循环变量晚绑定机制;从格式遵从度看,10 个模型也满足了“不要解释、不要代码块、不要额外空行”的硬性约束。

为什么指数全部记 0 分

赢政指数 v6 在代码执行维度采用双重校验:既看输出是否正确,也看是否 100% 遵循附加格式指令。文心一言因格式失败直接 0 分;其余模型虽然内容正确,却可能在“逐行作答”这一更细粒度的要求上被判定为未完全达标,导致最终得分归零。

这说明当前评测已从“会不会”转向“是否完全按指令执行”,对模型的指令跟随能力提出了更高要求。

一致性带来的启示

11 个模型在同一个经典坑点上给出相同答案,表明“lambda 捕获循环变量”已成为训练数据中的高频模式,模型已形成稳定认知。未来同类题目再难成为有效区分器。

当所有模型都给出同一个正确答案时,真正的考点已经从知识转向了格式与指令的绝对服从。

数据来源:赢政指数 (YZ Index) | Run #154 | 查看原始数据