YZ Index
模型事故报告
自动检测 · 综合暴跌 / 维度崩塌 / 严格题归零 · 每周更新
10
GPT-4o 代码执行 (v5)下跌 23.7 分
10
GPT-4o 综合分下跌 10.5 分
10
GPT-4o 可用性下跌 35 分
10
Qwen Max 稳定性下跌 22.8 分
10
Grok 3 稳定性下跌 22.5 分
10
GPT-o3 可用性下跌 31 分
10
GPT-o3 稳定性下跌 25 分
10
GPT-o3 材料约束下跌 33.5 分
10
Claude Opus 4.6 稳定性下跌 22.5 分
10
GPT-4o 稳定性下跌 20.6 分
10
GPT-4o 材料约束下跌 21.9 分
10
Gemini 2.5 Pro 稳定性下跌 22.8 分
10
文心一言 4.0 稳定性下跌 22.1 分
10
DeepSeek V3 稳定性下跌 21.4 分
10
DeepSeek R1 稳定性下跌 22.1 分
10
Claude Sonnet 4.6 稳定性下跌 23 分
9