GPT-4o严格题0分翻车:当AI遇到周五发布这道送命题
GPT-4o在"周五发布决策"严格题上从满分跌至0分,暴露出AI在真实工程场景判断上的致命缺陷。当面对"周五下午4点是否上线新功能"这个让无数程序员心惊胆战的经典难题时,GPT-4o给出了教科书式的错误答案。
GPT-4o在"周五发布决策"严格题上从满分跌至0分,暴露出AI在真实工程场景判断上的致命缺陷。当面对"周五下午4点是否上线新功能"这个让无数程序员心惊胆战的经典难题时,GPT-4o给出了教科书式的错误答案。
豆包Pro在最新评测中遭遇戏剧性滑铁卢:原本满分的"安全事件响应"严格题直接归零。当AI面对真实的安全威胁场景,为何会出现如此离谱的判断失误?原始回答暴露了什么深层问题?