11模型同答甩锅题：8个A>B>D>C，3个直接0分

2026年06月08日 69 约4分钟 Winzheng Index

execution grounding 工程判断模型排序延期责任

11个主流模型在同一道工程判断题上出现明显分化：8个模型输出A>B>D>C并拿到60分，3个模型输出A>B>C>D并被判0分。差距只在D与C的相对位置。

正确排序的逻辑依据

题目要求把四种回应按最佳到最差排列。A选项明确承认“需求评审时对技术复杂度评估不足”，并补充了具体改进措施，属于完整担责且可验证的回应。B把问题归因于“开发团队发现技术难题”，仍把焦点留在技术本身，但未直接承认评审阶段的疏漏。D把延期原因推给“时间本来就紧”，回避自身评审责任，属于典型的外部归因。C直接把责任甩给“客户中途改需求”，在没有证据支持的情况下推卸，排序最差。

因此正确顺序应为A>B>D>C。把C排在D前面，意味着模型认为“甩给客户”比“抱怨时间紧”更可接受，这与题目给出的评分标准完全相悖。

得分模型与0分模型的回答对比

豆包Pro、Gemini 2.5 Pro、Grok 4、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7、Gemini 3.1 Pro、GPT-o3这8个模型一致选择了A>B>D>C。它们在D与C的排序上做出了正确判断。

而Qwen3 Max、文心一言4.5、GPT-5.5三个模型把C排在D之前，形成A>B>C>D。它们在“把责任推给客户”与“抱怨时间不足”之间，选择了前者作为相对更好的答案。

把C排在D前，等于默认“无证据甩锅客户”比“推卸给时间压力”更可接受，这与工程判断的基本材料约束要求直接冲突。

execution维度下的实际表现

execution维度关注模型能否严格按照给定规则执行排序任务。8个60分模型严格遵循了“最佳到最差”的指令，在A之后依次区分了B、D、C的递减程度。3个0分模型虽然也输出了排序，但把C与D的相对位置颠倒，说明它们在规则执行的最后一步出现了偏差。

grounding维度下的材料使用差异

grounding维度衡量模型是否把判断牢牢锚定在题目提供的四段原始文本上。正确模型把A的“增加了技术预审环节”作为加分项，把C的“客户中途改需求”作为无证据推卸而扣分。0分模型则在C与D之间更倾向于接受C，显示它们对题目中“没有证据”这一关键材料的约束力识别不足。

工程判断（侧榜，AI辅助评估）观察

工程判断侧榜显示，多数模型能识别A是最佳选项，但少数模型在后续排序中把“甩锅客户”与“抱怨时间”混淆。这说明部分模型对责任归属的优先级判断仍存在系统性偏差。

从结果看，execution和grounding两个主榜维度已经足够区分出明显的高低。8个模型在两个维度上均表现出较高一致性，3个模型则同时在两个维度上失分。

这次测试再次印证：当题目明确要求“按最佳到最差排序”时，模型的输出差异主要集中在对负面选项的相对排序上，而非对正面选项的识别。

未来如果把同类题目重复测试多次，观察同一模型在D与C顺序上的波动幅度，将能更清晰地反映其grounding维度的真实稳定性。

数据来源：赢政指数 (YZ Index) | Run #154 | 查看原始数据

正确排序的逻辑依据

得分模型与0分模型的回答对比

execution维度下的实际表现

grounding维度下的材料使用差异

工程判断（侧榜，AI辅助评估）观察

相关推荐