GPT-4o严格题0分翻车:当AI遇到周五发布这道送命题
GPT-4o在"周五发布决策"严格题上从满分跌至0分,暴露出AI在真实工程场景判断上的致命缺陷。当面对"周五下午4点是否上线新功能"这个让无数程序员心惊胆战的经典难题时,GPT-4o给出了教科书式的错误答案。
Real testing, real data. We evaluate AI models, smart hardware, and cutting-edge tech with rigorous methodology — giving you the most objective reference.
GPT-4o在"周五发布决策"严格题上从满分跌至0分,暴露出AI在真实工程场景判断上的致命缺陷。当面对"周五下午4点是否上线新功能"这个让无数程序员心惊胆战的经典难题时,GPT-4o给出了教科书式的错误答案。