ROCm支持Miles:AMD GPU上的大规模RL后训练
强化学习(RL)已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持,AMD GPU用户可以在MI300/350级集群上运行现代RL管道,包括分布式rollout和GRPO训练。
Real testing, real data. We evaluate AI models, smart hardware, and cutting-edge tech with rigorous methodology — giving you the most objective reference.
强化学习(RL)已成为现代基础模型开发的核心阶段。通过ROCm对Miles的支持,AMD GPU用户可以在MI300/350级集群上运行现代RL管道,包括分布式rollout和GRPO训练。
千里之行,始于足下。今天,RadixArk团队发布了Miles,一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建,后者已悄然驱动众多后训练管道和大模型MoE训练(如GLM-4.6)。slime证明了轻量设计的可行性,而Miles则更进一步,提供企业级可靠性和大规模控制。新功能包括真On-Policy支持(KL散度精确为0)、内存优化、在线草稿模型训练(rollout加速25%以上)等。未来将支持GB300硬件、多模态训练和弹性扩展,助力高效可靠的RL训练。(128字)