厳格タスクゼロ化
深刻度 8/10
2026-W18
Claude Sonnet 4.6 综合严格题归零
スコア比較
| 次元 | 前回 | 今回 | 変化 |
|---|---|---|---|
| 総合 (v5) | 64.5 | 66.2 | +1.7 |
| コード実行 (v5) | 88.0 | 92.8 | +4.8 |
| 知識総合 (v5) | 55.2 | 50.8 | -4.4 |
| 材料制約 (v5) | 74.9 | 87.1 | +12.2 |
| コスパ | 24.2 | 25.1 | +0.9 |
| 安定性 | 38.5 | 35.7 | -2.8 |
| 可用性 | 100.0 | 99.0 | -1 |
影響を受けたディメンション
execution
失点タスクトップ 1
#1
SQL:疑似重複支払い識別
100
0
モデルの元の応答(抜粋)
```sql
SELECT
p1.id AS first_id,
p2.id AS second_id,
p1.user_id,
p1.merchant_id,
p1.amount
FROM payments p1
JOIN payments p2 ON
p1.user_id = p2.user_id
AND p1.merchant_id = p2.merchant_id
AND p1.amount = p2.amount
AND p1.id < p2.id
WHERE
p1.status = 'paid'
AND p2.status = 'paid'
AND ABS(EXTRACT(EPOCH FROM (p2.created_at - p1.created_at))) <= 120
ORDER BY first_id, second_id;
```
Run #87 · 公式 v7 · 判定 v6 · 題庫 v6 · 2026-04-27 04:18 SGT
見る Claude Sonnet 4.6 完全プロフィール