メインコンテンツへスキップ
厳格タスクゼロ化 深刻度 8/10 2026-W18

Claude Sonnet 4.6 综合严格题归零

Claude Sonnet 4.6 Run #87

スコア比較

次元 前回 今回 変化
総合 (v5) 64.5 66.2 +1.7
コード実行 (v5) 88.0 92.8 +4.8
知識総合 (v5) 55.2 50.8 -4.4
材料制約 (v5) 74.9 87.1 +12.2
コスパ 24.2 25.1 +0.9
安定性 38.5 35.7 -2.8
可用性 100.0 99.0 -1

影響を受けたディメンション

execution

失点タスクトップ 1

#1 SQL:疑似重複支払い識別 100 0
モデルの元の応答(抜粋)
```sql
SELECT 
    p1.id AS first_id,
    p2.id AS second_id,
    p1.user_id,
    p1.merchant_id,
    p1.amount
FROM payments p1
JOIN payments p2 ON 
    p1.user_id = p2.user_id 
    AND p1.merchant_id = p2.merchant_id 
    AND p1.amount = p2.amount
    AND p1.id < p2.id
WHERE 
    p1.status = 'paid' 
    AND p2.status = 'paid'
    AND ABS(EXTRACT(EPOCH FROM (p2.created_at - p1.created_at))) <= 120
ORDER BY first_id, second_id;
```
Run #87 · 公式 v7 · 判定 v6 · 題庫 v6 · 2026-04-27 04:18 SGT
見る Claude Sonnet 4.6 完全プロフィール