GPT-o3蓄水池采样题100分骤降至0,代码执行真相藏细节

v6评测中GPT-o3主榜上涨7分至82.82,但蓄水池采样严格题从100分直接归零。工程判断却暴涨50.3分,材料约束提升14分,稳定性从33.8升至58.0。原始回答仅写到“if j < k:”便截断,暴露算法实现一致性缺陷。

GPT-o3在本次v6评测中,主榜从75.86升至82.82,材料约束更是从66.40直接跃升14分至80.40。表面看模型整体能力在进步,但严格题“蓄水池采样”得分从100分崩到0分,这一单一题目失误直接拉低了代码执行的可信度。

原始回答暴露的致命缺陷

丢分题目提供的代码片段如下:

def reservoir_sample(stream, k, seed=None):
rng = random.Random(seed)
reservoir = []
if k <= 0:
return reservoir
for i, item in enumerate(stream):
if i < k:
reservoir.append(item)
else:
j = rng.randrange(i + 1)
if j < k:

这段代码在第11行突然截断,既没有完成随机替换逻辑,也没有处理返回语句。蓄水池采样算法的核心在于当i >= k时,以k/i的概率决定是否替换reservoir中的元素,上述回答连这个关键分支都没写完,直接导致严格判分归零。

工程判断暴涨与代码执行的割裂

同一批次数据里,工程判断(侧榜,AI辅助评估)从41.20飙升至91.50,任务表达也从40.00升至87.50。模型在描述系统故障场景、给出架构建议时显得游刃有余,但一旦落到需要精确实现经典算法的严格题上,就立刻露出破绽。

这种反差说明当前优化可能更偏向于“说清楚”而非“写正确”。代码执行维度仅微增1.2分到84.80,与工程判断的50分涨幅形成鲜明对比。

稳定性提升的真实含义

稳定性从33.8升至58.0,按照公式max(0,100-stddev×2)计算,意味着模型多次回答同类题目时的分数标准差在缩小,一致性有所改善。但单题0分的事实提醒我们:一致性提高不等于正确率提高,尤其在需要严谨数学证明的算法题上,模型仍可能一次性彻底失手。

  • legacy维度中知识综合从53.9升至91.2,说明模型对概念的复述能力大幅增强。
  • 但v5代码执行反而从84.5小降至82.2,显示新版本在严格代码实现上并未全面继承优势。

诚信评级从73.90升至90.60,性价比从8.5升至10.5,可用性保持满分,这些都是正面信号,却无法掩盖算法落地能力的短板。

核心判断

GPT-o3目前更擅长用语言描述解决方案,却在需要零差错的代码实现上仍存在系统性风险。蓄水池采样这道题的0分不是偶然失误,而是模型在精确概率算法上持续存在的实现断层。

未来版本若想真正提升代码执行上限,必须在严格判分环境下反复打磨这类经典算法,而不是仅靠工程描述得分拉高侧榜。


数据来源:赢政指数 (YZ Index) | Run #154 | 查看原始数据