メインコンテンツへスキップ
YZ Index

モデルインシデントレポート

自動検出:総合暴落 / ディメンション崩壊 / 厳格タスクゼロ化 · 毎週更新

8

Claude Sonnet 4.6 严格题"SQL:疑似重复支付识别"から满点跌至 0

厳格タスクゼロ化 Claude Sonnet 4.6 2026-W18 04-27 05:00
8

Claude Opus 4.6 严格题"SQL:疑似重复支付识别"から满点跌至 0

厳格タスクゼロ化 Claude Opus 4.6 2026-W18 04-27 05:00
10

GPT-4o コード実行 (v5)下落 23.7 点

ディメンション低下 GPT-4o 2026-W14 03-30 05:00
10

GPT-4o 総合スコア下落 10.5 点

総合スコア低下 GPT-4o 2026-W14 03-30 05:00
10

GPT-o3 材料制約下落 33.5 点

ディメンション低下 GPT-o3 2026-W12 03-22 06:28
10

Qwen Max 安定性下落 22.8 点

ディメンション低下 Qwen Max 2026-W12 03-22 06:28
10

Grok 3 安定性下落 22.5 点

ディメンション低下 Grok 3 2026-W12 03-22 06:28
10

GPT-o3 可用性下落 31 点

ディメンション低下 GPT-o3 2026-W12 03-22 06:28
10

GPT-o3 安定性下落 25 点

ディメンション低下 GPT-o3 2026-W12 03-22 06:28
10

Claude Opus 4.6 安定性下落 22.5 点

ディメンション低下 Claude Opus 4.6 2026-W12 03-22 06:28
10

GPT-4o 可用性下落 35 点

ディメンション低下 GPT-4o 2026-W12 03-22 06:28
10

GPT-4o 安定性下落 20.6 点

ディメンション低下 GPT-4o 2026-W12 03-22 06:28
10

GPT-4o 材料制約下落 21.9 点

ディメンション低下 GPT-4o 2026-W12 03-22 06:28
10

Gemini 2.5 Pro 安定性下落 22.8 点

ディメンション低下 Gemini 2.5 Pro 2026-W12 03-22 06:28
10

文心一言 4.0 安定性下落 22.1 点

ディメンション低下 文心一言 4.0 2026-W12 03-22 06:28
10

DeepSeek V3 安定性下落 21.4 点

ディメンション低下 DeepSeek V3 2026-W12 03-22 06:28
10

DeepSeek R1 安定性下落 22.1 点

ディメンション低下 DeepSeek R1 2026-W12 03-22 06:28
10

Claude Sonnet 4.6 安定性下落 23 点

ディメンション低下 Claude Sonnet 4.6 2026-W12 03-22 06:28
9

豆包 Pro 安定性下落 19.8 点

ディメンション低下 豆包 Pro 2026-W12 03-22 06:28