GPT-o3

gpt

Run #249 · 公式 v7 · 判分 v6.4 · 题库 v7

综合表现最强

67.5

综合评分

#6 / 11

当前排名

07-27 05:03 SGT

最近评测

推荐核心综合分 80.91

核心五维能力评分 v6

PASS

诚信评定

诚信分 75.00

代码执行

82.8

材料约束

78.6

工程判断

86.3

任务表达

78.3

诚信表现

75

查看旧版维度评分（v5 历史数据）

传统维度评分 legacy

代码执行

78.2

知识综合

84.2

材料约束

78.6

运营指标（不计入核心雷达）

性价比

9.6

稳定性

39.9

可用性

97.0

WDCD 守约测试试点

85.70

WDCD 得分

#6

守约排名 / 11

三轮表现

R1 约束确认

1.00/1

R2 干扰抵抗

1.00/1

R3 压力诚信

0.50/2

查看完整 WDCD 守约排行榜

最近变化

communication_raw -12.5 GPT-o3：任务表达 -12.5

趋势图

Integrity 历史从 v6 开始记录。代码执行 / 材料约束数据同样从 v6 起可用。

返回模型列表