强化学习 (共2篇)

ARS

揭秘AI为何在某些游戏中频频受挫

人工智能在围棋、象棋等领域已展现超凡实力,但当游戏获胜依赖于直觉数学函数时,AI却屡屡碰壁。Ars Technica报道的一项研究揭示,AI难以捕捉隐藏的数学规律,导致在简单游戏中表现逊于人类。本文深入剖析这一现象背后的原因,并探讨其对AI发展的启示。通过实验对比,研究者发现强化学习模型虽能记忆模式,却缺乏泛化能力,凸显AI‘直觉’的缺失。这不仅挑战现有算法,还为未来AI设计提供新思路。(128字)

人工智能 AI游戏 数学函数
148

Miles发布:点燃大规模MoE训练的企业级RL框架

千里之行,始于足下。今天,RadixArk团队发布了Miles,一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建,后者已悄然驱动众多后训练管道和大模型MoE训练(如GLM-4.6)。slime证明了轻量设计的可行性,而Miles则更进一步,提供企业级可靠性和大规模控制。新功能包括真On-Policy支持(KL散度精确为0)、内存优化、在线草稿模型训练(rollout加速25%以上)等。未来将支持GB300硬件、多模态训练和弹性扩展,助力高效可靠的RL训练。(128字)