H20 GPU - AI测评 | 赢政天下

携手SGLang：在H20-96G上高效部署DeepSeek-R1的最佳实践

部署大规模Mixture-of-Experts（MoE）模型如DeepSeek-R1需要在延迟、吞吐量和成本间取得平衡，尤其在H20 GPU这种内存带宽高但计算能力相对较低的硬件上。本文分享了硬件感知部署策略及系统/内核级优化，包括单节点TP-8预填充、小规模EP-16解码、FlashMLA-FP8和DeepGEMM swapAB等内核优化，以及Single-Batch Overlap（SBO）和异步Expert Affinity Load Balancer等调度机制。实验显示，每节点在4096 token输入序列上实现16.5k输入token/s和5.7k输出token/s的SOTA性能，这是H20上首次全面工业实践研究。