强化学习 - AI资讯

DeepSeek-V4：首日支持推理与强化学习

SGLang 团队宣布，DeepSeek-V4 在发布当日即提供全面的推理与强化学习支持。SGLang 和 Miles 组成首个开源技术栈，专为其混合稀疏注意力架构及多样化连接优化而设计。此次发布包括了影子基数前缀缓存、推测解码加速及 HiSparse 等多项性能优化。

ROCm支持Miles：AMD GPU上的大规模RL后训练

强化学习（RL）已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持，AMD GPU用户可以在MI300/350级集群上运行现代RL管道，包括分布式rollout和GRPO训练。

ARS

人工智能在围棋、象棋等领域已展现超凡实力，但当游戏获胜依赖于直觉数学函数时，AI却屡屡碰壁。Ars Technica报道的一项研究揭示，AI难以捕捉隐藏的数学规律，导致在简单游戏中表现逊于人类。本文深入剖析这一现象背后的原因，并探讨其对AI发展的启示。通过实验对比，研究者发现强化学习模型虽能记忆模式，却缺乏泛化能力，凸显AI‘直觉’的缺失。这不仅挑战现有算法，还为未来AI设计提供新思路。（128字）

Miles发布：点燃大规模MoE训练的企业级RL框架

千里之行，始于足下。今天，RadixArk团队发布了Miles，一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建，后者已悄然驱动众多后训练管道和大模型MoE训练（如GLM-4.6）。slime证明了轻量设计的可行性，而Miles则更进一步，提供企业级可靠性和大规模控制。新功能包括真On-Policy支持（KL散度精确为0）、内存优化、在线草稿模型训练（rollout加速25%以上）等。未来将支持GB300硬件、多模态训练和弹性扩展，助力高效可靠的RL训练。（128字）

强化学习 (共4篇)

DeepSeek-V4：首日支持推理与强化学习

ROCm支持Miles：AMD GPU上的大规模RL后训练

揭秘AI为何在某些游戏中频频受挫

Miles发布：点燃大规模MoE训练的企业级RL框架