Miles发布：点燃大规模MoE训练的企业级RL框架

2026年02月04日 7 约4分钟 LMSYS

LMSYS Miles 强化学习 MoE训练 SGLang slime

千里之行，始于足下。

今天，我们发布了Miles，一个专为大规模MoE训练和生产工作负载设计的企业级强化学习框架。

Miles基于slime构建，后者是轻量级RL框架，已悄然驱动当今众多后训练管道和大模型MoE训练（如GLM-4.6）。slime验证了轻量设计的有效性，而Miles则迈出下一步：提供真实企业部署所需的可靠性、规模化和控制力。

为什么选择Miles？

每一段进步都源于精准的一步——slime便是如此。作为高度轻量且可定制的RL框架，slime在社区中迅速流行，并在GLM-4.6的大规模MoE训练中经受实战检验。slime遵循几项优雅设计原则：

提供对SGLang和Megatron完整优化栈的原生结构化支持，跟上推理与训练框架的快速发展。

核心组件——Algorithm、Data、Rollout和Eval——完全解耦。只需少量代码修改，即可接入新代理类型、奖励函数或采样策略。

每个抽象层都易读易改。算法研究者无需深挖底层代码，即可调整重要性采样、rollout逻辑或损失动态。我们还提供纯推理和纯训练调试模式，便于快速诊断。

slime源于LMSYS和SGLang社区的实战反馈，体现了研究与工程开放协作的成果。

Miles在slime基础上，针对新硬件（如GB300）、大规模MoE RL和生产级稳定性进行了优化。近期新增功能（多数已上游回馈slime）包括：

超越确定性推理（逐位相同结果），现通过基础设施实现true on-policy：true_on_policy示例。

消除训练与推理间的差异，使KL散度精确为0。
采用Flash Attention 3、DeepGEMM、Thinking Machines Lab的batch invariant kernels，以及torch.compile，并对齐训练与推理的数值运算。

为最大化性能并避免OOM错误，我们进行了多项改进：

RL中冻结草稿模型会使其偏离目标模型策略，降低接受长度和加速比。现全程进行在线SFT训练草稿模型：spec文档。

我们增强了FSDP训练后端，支持独立部署rollout子系统，并添加更多调试工具（指标、事后分析器、更好profiling）。还包含Lean形式数学示例，附带SFT/RL脚本。

我们致力于企业级RL训练支持。即将推进：

Miles离不开slime作者及更广泛的SGLang RL社区。我们邀请研究者、初创企业和团队探索slime与Miles——选择适合你的——共同打造高效可靠的强化学习。社区反馈是我们前进动力，我们正积极迭代Miles，构建生产就绪的训练环境。