二叉树序列化实测:11 模型 7 满分 4 直接归零

11 模型同题实测二叉树序列化与反序列化,豆包、Qwen3、Claude 等 7 款拿下 100 分,Gemini 2.5/3.1、DeepSeek V4、GPT-5.5 四款因类封装或代码截断得 0 分。核心差距在于是否严格按函数签名输出且空节点显式稳定编码。

同一道要求“只返回代码、必须显式编码空节点、结果稳定一致”的二叉树序列化题,11 款模型最终得分呈现明显两极分化:7 款拿到满分 100,4 款直接 0 分。

满分模型的共同特征

豆包 Pro、Qwen3 Max、文心一言 4.5、Grok 4、Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3 七款模型均采用前序遍历 + 显式空节点标记的方案。

典型实现如下:

  • 空节点统一用 “#” 或 “null” 占位
  • 直接返回逗号拼接字符串,无额外类封装
  • 反序列化使用迭代器或 pop(0) 方式重建树结构

这些模型生成的代码在多次运行中输出格式完全一致,满足“同一棵树多次序列化结果必须稳定一致”的硬性要求。

0 分模型的致命问题

Gemini 2.5 Pro、Gemini 3.1 Pro、DeepSeek V4 Pro、GPT-5.5 四款模型得分 0,主要原因集中在两个方面:

  • 使用 Codec 类封装,而非直接提供 serialize/deserialize 两个独立函数
  • 代码片段明显截断,反序列化函数不完整

其中 Gemini 系列两次均采用类结构,DeepSeek V4 Pro 同样返回了 Codec 类,GPT-5.5 则直接输出未完成的 dfs 函数。题目明确要求“只返回代码,不要解释”,这些模型的输出格式本身已不符合评测标准。

工程实现里,格式合规往往比算法思路更重要。0 分不是因为不会写,而是因为没按题目规则出牌。

执行维度下的真实差距

本次评测只考察代码执行维度。满分模型在处理负数、重复值、空树等边界情况时均通过;0 分模型因格式错误连测试入口都进不去。

值得注意的是,Claude Sonnet 4.6 虽最终得分 100,但中间版本曾出现正则表达式未定义的问题,显示其在代码完整性上仍有波动。相比之下,GPT-o3 和 Claude Opus 4.7 的实现最干净直接。

从结果看,当前主流模型在严格约束的代码执行任务上,已能稳定产出可用方案,但仍有接近四成的模型在“按规则输出”这一最基础环节失败。

这也再次印证:模型的工程落地能力,首先体现在能否读懂并严格遵守题目中的所有约束条件。


数据来源:赢政指数 (YZ Index) | Run #154 | 查看原始数据