11个AI做同一道逻辑题,3个答错暴露推理黑洞
一道简单的排序逻辑题让11个顶尖AI模型现出原形:DeepSeek V3和R1双双翻车,Grok更是离谱到让人怀疑它在摸鱼。8个模型答对,3个彻底答错,错误率27%暴露了当前AI的推理软肋。
実機テスト、データで語る。厳密な方法論でAI大規模モデル、スマートハードウェア、最先端技術を評価し、最も客観的な参考を提供します。
一道简单的排序逻辑题让11个顶尖AI模型现出原形:DeepSeek V3和R1双双翻车,Grok更是离谱到让人怀疑它在摸鱼。8个模型答对,3个彻底答错,错误率27%暴露了当前AI的推理软肋。