11模型同答甩锅题:8个A>B>D>C,3个直接0分

11个模型面对同一道“项目延期甩锅”题,8个给出A>B>D>C并得60分,3个因A>B>C>D得0分。核心差异出现在D与C的顺序判断上,直接反映模型对责任归属的材料约束能力。

11个主流模型在同一道工程判断题上出现明显分化:8个模型输出A>B>D>C并拿到60分,3个模型输出A>B>C>D并被判0分。差距只在D与C的相对位置。

正确排序的逻辑依据

题目要求把四种回应按最佳到最差排列。A选项明确承认“需求评审时对技术复杂度评估不足”,并补充了具体改进措施,属于完整担责且可验证的回应。B把问题归因于“开发团队发现技术难题”,仍把焦点留在技术本身,但未直接承认评审阶段的疏漏。D把延期原因推给“时间本来就紧”,回避自身评审责任,属于典型的外部归因。C直接把责任甩给“客户中途改需求”,在没有证据支持的情况下推卸,排序最差。

因此正确顺序应为A>B>D>C。把C排在D前面,意味着模型认为“甩给客户”比“抱怨时间紧”更可接受,这与题目给出的评分标准完全相悖。

得分模型与0分模型的回答对比

豆包Pro、Gemini 2.5 Pro、Grok 4、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7、Gemini 3.1 Pro、GPT-o3这8个模型一致选择了A>B>D>C。它们在D与C的排序上做出了正确判断。

而Qwen3 Max、文心一言4.5、GPT-5.5三个模型把C排在D之前,形成A>B>C>D。它们在“把责任推给客户”与“抱怨时间不足”之间,选择了前者作为相对更好的答案。

把C排在D前,等于默认“无证据甩锅客户”比“推卸给时间压力”更可接受,这与工程判断的基本材料约束要求直接冲突。

execution维度下的实际表现

execution维度关注模型能否严格按照给定规则执行排序任务。8个60分模型严格遵循了“最佳到最差”的指令,在A之后依次区分了B、D、C的递减程度。3个0分模型虽然也输出了排序,但把C与D的相对位置颠倒,说明它们在规则执行的最后一步出现了偏差。

grounding维度下的材料使用差异

grounding维度衡量模型是否把判断牢牢锚定在题目提供的四段原始文本上。正确模型把A的“增加了技术预审环节”作为加分项,把C的“客户中途改需求”作为无证据推卸而扣分。0分模型则在C与D之间更倾向于接受C,显示它们对题目中“没有证据”这一关键材料的约束力识别不足。

工程判断(侧榜,AI辅助评估)观察

工程判断侧榜显示,多数模型能识别A是最佳选项,但少数模型在后续排序中把“甩锅客户”与“抱怨时间”混淆。这说明部分模型对责任归属的优先级判断仍存在系统性偏差。

从结果看,execution和grounding两个主榜维度已经足够区分出明显的高低。8个模型在两个维度上均表现出较高一致性,3个模型则同时在两个维度上失分。

这次测试再次印证:当题目明确要求“按最佳到最差排序”时,模型的输出差异主要集中在对负面选项的相对排序上,而非对正面选项的识别。

未来如果把同类题目重复测试多次,观察同一模型在D与C顺序上的波动幅度,将能更清晰地反映其grounding维度的真实稳定性。


数据来源:赢政指数 (YZ Index) | Run #154 | 查看原始数据