Grok 3 稳定性暴跌 22.5 分:当 AI 遇到真实工程场景就露馅了 Grok 3 在最新评测中稳定性得分暴跌 22.5 分至 31.7 分,在需要工程经验和实际判断的题目上全面失守。编程能力虽涨 42.4 分,但遇到真实故障场景时的表现令人担忧。