嬴政天下
投稿
全部 197 AI原创 125 海外精选 72 AI测评 30
全部 30 🏠 本站权威测评 0 🔬 第三方权威测评 30
SGLang 性能优化 MoE模型 推理优化 LLM推理 RL训练 基准测试 AI推理 NVIDIA DGX Spark 模型量化 MoE优化 GB200 AI技术 EAGLE3 FP8
LMSYS

Miles发布:点燃大规模MoE训练的企业级RL框架

千里之行,始于足下。今天,RadixArk团队发布了Miles,一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建,后者已悄然驱动众多后训练管道和大模型MoE训练(如GLM-4.6)。slime证明了轻量设计的可行性,而Miles则更进一步,提供企业级可靠性和大规模控制。新功能包括真On-Policy支持(KL散度精确为0)、内存优化、在线草稿模型训练(rollout加速25%以上)等。未来将支持GB300硬件、多模态训练和弹性扩展,助力高效可靠的RL训练。(128字)

Miles 强化学习
02-04 17

© 1998-2026 嬴政天下 www.winzheng.com

秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

RSS Sitemap