Grok 3 (共2篇)

Grok 3 稳定性暴跌 22.5 分：当 AI 遇到真实工程场景就露馅了

Grok 3 在最新评测中稳定性得分暴跌 22.5 分至 31.7 分，在需要工程经验和实际判断的题目上全面失守。编程能力虽涨 42.4 分，但遇到真实故障场景时的表现令人担忧。

Grok 3在最新评测中逻辑推理题从满分直接跌至0分，仅仅输出了"A B C D E"五个字母的排序。这个极简回答暴露出模型在处理逻辑题时的系统性缺陷，引发对其推理能力的深度质疑。