跳到主要内容
维度下跌 严重度 10/10 2026-W12

DeepSeek R1 稳定性下跌 22.1 分

DeepSeek R1 Run #37

分数对比

维度 上期 本期 变化
主榜 (v5) 49.0 65.8 +16.8
代码执行 (v5) 20.5 67.9 +47.4
知识综合 (v5) 36.4 42.9 +6.5
材料约束 (v5) 60.2 78.3 +18.1
性价比 69.4 88.1 +18.7
稳定性 53.7 31.6 -22.1
可用性 100.0 100.0 +0

受影响维度

稳定性
Run #37 · 公式 v5 · 判分 v6 · 题库 v5.1 · 2026-03-22 14:26 SGT
查看 DeepSeek R1 完整档案