11 个 AI 解同一道逻辑题,5 家正确 6 家集体出错
11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化:豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E,而 Claude、DeepSeek、文心一言等六家输出 A,B,C,D,E 等错误顺序,正确率仅 45%。
11 款主流 AI 模型在同一道五人排名逻辑题上出现明显分化:豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、GPT-5.5、GPT-o3 五家给出正确答案 A,D,C,B,E,而 Claude、DeepSeek、文心一言等六家输出 A,B,C,D,E 等错误顺序,正确率仅 45%。