二叉树序列化实测：11 模型 7 满分 4 直接归零

2026年06月08日 73 约3分钟 Winzheng Index

代码执行材料约束二叉树序列化工程实现模型对比

同一道要求“只返回代码、必须显式编码空节点、结果稳定一致”的二叉树序列化题，11 款模型最终得分呈现明显两极分化：7 款拿到满分 100，4 款直接 0 分。

豆包 Pro、Qwen3 Max、文心一言 4.5、Grok 4、Claude Sonnet 4.6、Claude Opus 4.7、GPT-o3 七款模型均采用前序遍历 + 显式空节点标记的方案。

典型实现如下：

这些模型生成的代码在多次运行中输出格式完全一致，满足“同一棵树多次序列化结果必须稳定一致”的硬性要求。

Gemini 2.5 Pro、Gemini 3.1 Pro、DeepSeek V4 Pro、GPT-5.5 四款模型得分 0，主要原因集中在两个方面：

其中 Gemini 系列两次均采用类结构，DeepSeek V4 Pro 同样返回了 Codec 类，GPT-5.5 则直接输出未完成的 dfs 函数。题目明确要求“只返回代码，不要解释”，这些模型的输出格式本身已不符合评测标准。

工程实现里，格式合规往往比算法思路更重要。0 分不是因为不会写，而是因为没按题目规则出牌。

本次评测只考察代码执行维度。满分模型在处理负数、重复值、空树等边界情况时均通过；0 分模型因格式错误连测试入口都进不去。

值得注意的是，Claude Sonnet 4.6 虽最终得分 100，但中间版本曾出现正则表达式未定义的问题，显示其在代码完整性上仍有波动。相比之下，GPT-o3 和 Claude Opus 4.7 的实现最干净直接。

从结果看，当前主流模型在严格约束的代码执行任务上，已能稳定产出可用方案，但仍有接近四成的模型在“按规则输出”这一最基础环节失败。

这也再次印证：模型的工程落地能力，首先体现在能否读懂并严格遵守题目中的所有约束条件。

相关推荐