维度下跌
严重度 6/10
2026-W12
GPT-o3 知识工作下跌 12.1 分
分数对比
| 维度 | 上期 | 本期 | 变化 |
|---|---|---|---|
| 综合实力 | 70.4 | 65.7 | -4.7 |
| 编程能力 | 83.8 | 82.9 | -0.9 |
| 知识工作 | 82.4 | 70.3 | -12.1 |
| 长上下文 | 79.5 | 77.7 | -1.8 |
| 性价比 | 12.2 | 10.3 | -1.9 |
| 稳定性 | 51.3 | 43.1 | -8.2 |
| 可用性 | 100.0 | 98.9 | -1.1 |
受影响维度
知识工作
丢分题目 Top 3
#1
排班冲突
知识工作
100
10
-90
模型原始回复(截取)
星期一:E 星期二:A 星期三:C 星期四:B 星期五:D
#2
法律条款英译中
知识工作
100
75
-25
模型原始回复(截取)
责任限制:任何一方均不对因本协议引起或与本协议相关的任何间接、附带、后果性、特殊或惩罚性损害承担责任,包括但不限于收入损失、利润损失、业务损失或数据丢失,即使该方已被告知可能发生此类损害。任何一方在本协议项下的累计责任总额不应超过在引发索赔的事件发生前十二(12)个月内客户支付的金额。
#3
口语化英译中
知识工作
85.7
71.4
-14.3
模型原始回复(截取)
"嘿,我跟你说,那个新项目真是个大变革!CEO看到演示时高兴坏了。不过,说实话,截止日期太紧了——我们每天都在熬夜加班。我同事汤姆老是掉链子,我都烦死了。反正有空一起喝咖啡聊聊吧。没什么特别的,就想聚聚。"
Run #20 · 公式 v3 · 判分 v5 · 题库 v3 · 2026-03-19 01:57 SGT
查看 GPT-o3 完整档案