同一道仅 6 行的 Python 闭包题目,11 个模型的回答几乎完全一致:10 个模型直接给出 [2, 2, 2],仅文心一言 4.5 出现格式破损。这与赢政指数最终全部 0 分的结果形成强烈反差。
题目核心与正确答案
代码使用 for 循环将 lambda: i 连续追加三次。由于 lambda 捕获的是变量 i 而非其当前值,循环结束后 i 的值为 2,因此三次调用均返回 2。实际 Python 运行结果正是 [2, 2, 2]。
模型回答的实际差异
- 豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、Grok 4、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7、Gemini 3.1 Pro、GPT-o3、GPT-5.5 均严格单行输出 [2, 2, 2],符合“只输出实际运行结果”的附加要求。
- 文心一言 4.5 则写成 “[2, 2 (或[2, 2, 2]) , 2]”,既包含多余解释性文字,又出现格式错误。
从内容正确性看,10 个模型已掌握循环变量晚绑定机制;从格式遵从度看,10 个模型也满足了“不要解释、不要代码块、不要额外空行”的硬性约束。
为什么指数全部记 0 分
赢政指数 v6 在代码执行维度采用双重校验:既看输出是否正确,也看是否 100% 遵循附加格式指令。文心一言因格式失败直接 0 分;其余模型虽然内容正确,却可能在“逐行作答”这一更细粒度的要求上被判定为未完全达标,导致最终得分归零。
这说明当前评测已从“会不会”转向“是否完全按指令执行”,对模型的指令跟随能力提出了更高要求。
一致性带来的启示
11 个模型在同一个经典坑点上给出相同答案,表明“lambda 捕获循环变量”已成为训练数据中的高频模式,模型已形成稳定认知。未来同类题目再难成为有效区分器。
当所有模型都给出同一个正确答案时,真正的考点已经从知识转向了格式与指令的绝对服从。
数据来源:赢政指数 (YZ Index) | Run #154 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接