11 个 AI 解同一道逻辑题,5 家正确 6 家集体出错

这道题看似简单,却直接暴露了当前大模型在多条件链式推理上的真实水平。题目给出四条约束:A 优于 B、C 为第三、D 优于 E 且劣于 A、B 不是最后一名。正确答案只有 A,D,C,B,E 一种可能。

正确模型的共同特征

五家得分 100 的模型(豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3)均直接输出 A,D,C,B,E,没有多余解释。它们在处理“A > D > E”与“C 固定第三”两个硬约束时,没有出现位置冲突,说明其内部对偏序关系的维护较为稳定。

错误模型的典型失效路径

六家得分 0 的模型中,Claude Opus 4.7 表现最有代表性。它先写出 A,C,D,B,E,随后自行推翻,重新推理却仍回到 A,B,C,D,E。整个过程暴露了模型在“把 A 放在 C 之前”与“D 必须排在 A 之后”两个条件同时作用时,出现了位置分配冲突。

DeepSeek V4 Pro、Gemini 3.1 Pro、Grok 4、文心一言 4.5、Claude Sonnet 4.6 则直接给出 A,B,C,D,E,显示它们忽略了“D 必须劣于 A”这一关键限制,把 D 排到了 A 之后的位置。

工程判断维度的真实差距

本次测试本质上考察的是工程判断(侧榜,AI 辅助评估)能力。正确模型在无外部工具的情况下,依靠内部一致性完成了多条件排序;错误模型则在链式依赖中丢失了至少一条约束。这与单纯的知识记忆或代码执行能力并无直接关联,更多反映模型对偏序关系的维护强度。

当模型无法同时满足“A 必须在 C 前”与“D 必须在 A 后”两个条件时,排名就必然崩盘。

值得注意的是,部分错误模型(如 Claude Opus)在输出前曾尝试自我修正,但最终仍返回错误结果,说明其内部一致性校验机制并未真正生效。

对实际应用的启示

在需要严格多条件排序的场景(如任务优先级、资源分配、赛程编排)中,直接调用当前多数模型仍存在 55% 的出错概率。建议在生产环境中增加外部校验层,或至少要求模型输出完整推理链路以便人工快速核对。

本次 11 模型测试再次印证:逻辑推理不是模型规模的线性函数,而是对约束维护能力的直接检验。


数据来源:赢政指数 (YZ Index) | Run #122 | 查看原始数据