SGLang 中的 Elastic EP:DeepSeek MoE 部署的部分故障容忍
为高效服务大规模 Mixture-of-Experts (MoE) 模型,宽 Expert Parallelism (EP) 策略已成为必需,但其可靠性瓶颈突出:单一硬件故障可能导致整个实例崩溃,重启需数分钟。为此,SGLang 集成 Elastic EP,通过解耦专家与 GPU 的刚性绑定、维护冗余专家,实现故障检测后秒级重分布专家权重,服务中断不超过10秒,较传统重启减少90%。性能测试显示,Elastic EP 与标准 DeepEP 相当,无静态性能损失。Mooncake EP 作为容错通信后端,提供高性能 RDMA 和快速故障检测。启用只需简单参数配置,提升 MoE 推理弹性。(128字)