Grok 4 98.34 分登顶,Claude Opus 主榜暴跌 31.3 分
今日 Smoke 轻量评测显示,Grok 4 以 98.34 分领跑,代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分,执行分直接腰斩至 38.1,诚信评级从 pass 转为 warn。Qwen3 Max 紧随其后,多款模型执行能力出现明显下滑。
今日 Smoke 轻量评测显示,Grok 4 以 98.34 分领跑,代码执行满分 100。Claude Opus 4.7 主榜暴跌 31.3 分,执行分直接腰斩至 38.1,诚信评级从 pass 转为 warn。Qwen3 Max 紧随其后,多款模型执行能力出现明显下滑。