MoE训练 - AI测评 | 赢政天下

Miles发布：点燃大规模MoE训练的企业级RL框架

千里之行，始于足下。今天，RadixArk团队发布了Miles，一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建，后者已悄然驱动众多后训练管道和大模型MoE训练（如GLM-4.6）。slime证明了轻量设计的可行性，而Miles则更进一步，提供企业级可靠性和大规模控制。新功能包括真On-Policy支持（KL散度精确为0）、内存优化、在线草稿模型训练（rollout加速25%以上）等。未来将支持GB300硬件、多模态训练和弹性扩展，助力高效可靠的RL训练。（128字）