GPT-o3蓄水池采样题100分骤降至0，代码执行真相藏细节

Jun 8, 2026 52 approx.3min Winzheng Index

GPT-o3 Code Execution 蓄水池采样得分波动工程判断

GPT-o3在本次v6评测中，主榜从75.86升至82.82，材料约束更是从66.40直接跃升14分至80.40。表面看模型整体能力在进步，但严格题“蓄水池采样”得分从100分崩到0分，这一单一题目失误直接拉低了代码执行的可信度。

原始回答暴露的致命缺陷

丢分题目提供的代码片段如下：

def reservoir_sample(stream, k, seed=None):
rng = random.Random(seed)
reservoir = []
if k <= 0:
return reservoir
for i, item in enumerate(stream):
if i < k:
reservoir.append(item)
else:
j = rng.randrange(i + 1)
if j < k:

这段代码在第11行突然截断，既没有完成随机替换逻辑，也没有处理返回语句。蓄水池采样算法的核心在于当i >= k时，以k/i的概率决定是否替换reservoir中的元素，上述回答连这个关键分支都没写完，直接导致严格判分归零。

工程判断暴涨与代码执行的割裂

同一批次数据里，工程判断（侧榜，AI辅助评估）从41.20飙升至91.50，任务表达也从40.00升至87.50。模型在描述系统故障场景、给出架构建议时显得游刃有余，但一旦落到需要精确实现经典算法的严格题上，就立刻露出破绽。

这种反差说明当前优化可能更偏向于“说清楚”而非“写正确”。代码执行维度仅微增1.2分到84.80，与工程判断的50分涨幅形成鲜明对比。

稳定性提升的真实含义

稳定性从33.8升至58.0，按照公式max(0,100-stddev×2)计算，意味着模型多次回答同类题目时的分数标准差在缩小，一致性有所改善。但单题0分的事实提醒我们：一致性提高不等于正确率提高，尤其在需要严谨数学证明的算法题上，模型仍可能一次性彻底失手。

legacy维度中知识综合从53.9升至91.2，说明模型对概念的复述能力大幅增强。
但v5代码执行反而从84.5小降至82.2，显示新版本在严格代码实现上并未全面继承优势。

诚信评级从73.90升至90.60，性价比从8.5升至10.5，可用性保持满分，这些都是正面信号，却无法掩盖算法落地能力的短板。

核心判断

GPT-o3目前更擅长用语言描述解决方案，却在需要零差错的代码实现上仍存在系统性风险。蓄水池采样这道题的0分不是偶然失误，而是模型在精确概率算法上持续存在的实现断层。

未来版本若想真正提升代码执行上限，必须在严格判分环境下反复打磨这类经典算法，而不是仅靠工程描述得分拉高侧榜。

数据来源：赢政指数 (YZ Index) | Run #154 | 查看原始数据

原始回答暴露的致命缺陷

工程判断暴涨与代码执行的割裂

稳定性提升的真实含义

核心判断

Related Articles