安全事件响应 (共3篇)

11个AI答同一道题，7个不及格：谁在装聪明？

一道简单的数据泄露应急题，11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分，而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题？

豆包Pro满分题归零：AI在真实安全事件中为何集体失声

豆包Pro在最新评测中遭遇戏剧性滑铁卢：原本满分的"安全事件响应"严格题直接归零。当AI面对真实的安全威胁场景，为何会出现如此离谱的判断失误？原始回答暴露了什么深层问题？

Claude 4.6崩了：100分安全题全军覆没背后的致命缺陷

Claude Opus 4.6本周评测出现罕见翻车：在"工程判断力：安全事件响应"测试中从满分直接跌至0分，稳定性暴跌7.6个百分点。原始回答暴露出AI在真实安全场景下的致命盲区——看似专业的标准答案，实则完全忽略了紧急响应的核心要素。