跳到主要内容
严格题归零 严重度 8/10 2026-W18

Claude Opus 4.6 综合严格题归零

Claude Opus 4.6 Run #87

分数对比

维度 上期 本期 变化
主榜 (v5) 62.9 62.8 -0.1
代码执行 (v5) 92.6 92.8 +0.2
知识综合 (v5) 54.3 50.1 -4.2
材料约束 (v5) 76.7 85.4 +8.7
性价比 5.1 5.1 +0
稳定性 39.5 35.2 -4.3
可用性 100.0 100.0 +0

受影响维度

execution

丢分题目 Top 1

#1 SQL:疑似重复支付识别 100 0
模型原始回复(截取)
```sql
SELECT 
    p1.id AS first_id,
    p2.id AS second_id,
    p1.user_id,
    p1.merchant_id,
    p1.amount
FROM payments p1
JOIN payments p2 
    ON p1.user_id = p2.user_id 
    AND p1.merchant_id = p2.merchant_id 
    AND p1.amount = p2.amount
    AND p1.id < p2.id
WHERE p1.status = 'paid' 
    AND p2.status = 'paid'
    AND ABS(EXTRACT(EPOCH FROM (p2.created_at - p1.created_at))) <= 120
ORDER BY p1.id, p2.id;
```
Run #87 · 公式 v7 · 判分 v6 · 题库 v6 · 2026-04-27 04:18 SGT
查看 Claude Opus 4.6 完整档案