人工智能评估 (共1篇)

MIT

AI基准测试失效了,我们需要什么替代方案?

数十年来,人工智能评估一直围绕机器是否超越人类展开,从国际象棋到高级数学、编程和散文写作,AI模型的表现总被与个体人类在孤立任务上的成绩对比。这种框架虽诱人,却忽略了AI在复杂、真实世界中的局限。基准测试饱和、数据污染等问题频发,导致评估失真。文章呼吁转向系统级、多模态和长期规划的新基准,以真正衡量AI潜力。(128字)