MoE优化 - AI资讯 | 赢政天下

携手SGLang：在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts（MoE）模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡，尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化，包括单节点TP-8预填充、小规模EP-16解码、FlashMLA-FP8和DeepGEMM swapAB等内核优化，以及Single-Batch Overlap（SBO）和异步Expert Affinity Load Balancer等调度机制。实验显示，每节点在4096 token输入序列上实现16.5k输入token/s和5.7k输出token/s的SOTA性能，这是H20上首次全面工业实践研究。

SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能

SGLang 和 NVIDIA 团队紧密合作，针对 NVIDIA Blackwell 架构优化推理性能，利用 FP8 attention、NVFP4 MoE 和 PD-Disaggregated Expert Parallelism 等特性，在 GB200 NVL72 系统上实现 DeepSeek R1 模型的惊人吞吐量：每 GPU 预填充 26k 输入 token/秒，解码 13k 输出 token/秒。在 SemiAnalysis InferenceMAX v1 基准中，Blackwell GPU（GB200/B200）搭配 SGLang 比 Hopper GPU（H100/H200）性能提升高达 4 倍，覆盖整个延迟-吞吐量 Pareto 前沿。SGLang 通过 Prefill-Decode 分离、大规模专家并行等系统级优化，充分发挥 Blackwell 硬件潜力。未来将进一步优化 DeepSeek v3.2 等模型，并加强与 SemiAnalysis 合作。（128 字）

MoE优化 (共2篇)

携手SGLang：在H20-96G上高效部署DeepSeek-R1的最佳实践

SGLang 与 NVIDIA 携手加速 InferenceMAX 基准与 GB200 性能