同一道要求“只返回代码、必须显式编码空节点、结果稳定一致”的二叉树序列化题,11 款模型最终得分呈现明显两极分化:7 款拿到满分 100,4 款直接 0 分。
满分模型的共同特征
豆包 Pro、Qwen3 Max、文心一言 4.5、Grok 4、Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3 七款模型均采用前序遍历 + 显式空节点标记的方案。
典型实现如下:
- 空节点统一用 “#” 或 “null” 占位
- 直接返回逗号拼接字符串,无额外类封装
- 反序列化使用迭代器或 pop(0) 方式重建树结构
这些模型生成的代码在多次运行中输出格式完全一致,满足“同一棵树多次序列化结果必须稳定一致”的硬性要求。
0 分模型的致命问题
Gemini 2.5 Pro、Gemini 3.1 Pro、DeepSeek V4 Pro、GPT-5.5 四款模型得分 0,主要原因集中在两个方面:
- 使用 Codec 类封装,而非直接提供 serialize/deserialize 两个独立函数
- 代码片段明显截断,反序列化函数不完整
其中 Gemini 系列两次均采用类结构,DeepSeek V4 Pro 同样返回了 Codec 类,GPT-5.5 则直接输出未完成的 dfs 函数。题目明确要求“只返回代码,不要解释”,这些模型的输出格式本身已不符合评测标准。
工程实现里,格式合规往往比算法思路更重要。0 分不是因为不会写,而是因为没按题目规则出牌。
执行维度下的真实差距
本次评测只考察代码执行维度。满分模型在处理负数、重复值、空树等边界情况时均通过;0 分模型因格式错误连测试入口都进不去。
值得注意的是,Claude Sonnet 4.6 虽最终得分 100,但中间版本曾出现正则表达式未定义的问题,显示其在代码完整性上仍有波动。相比之下,GPT-o3 和 Claude Opus 4.7 的实现最干净直接。
从结果看,当前主流模型在严格约束的代码执行任务上,已能稳定产出可用方案,但仍有接近四成的模型在“按规则输出”这一最基础环节失败。
这也再次印证:模型的工程落地能力,首先体现在能否读懂并严格遵守题目中的所有约束条件。
数据来源:赢政指数 (YZ Index) | Run #154 | 查看原始数据
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接