SGLang优化GLM4-MoE生产部署:TTFT提升65%
Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略,涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术,在代理编码工作负载下实现了TTFT降低高达65%、TPOT提升22%的显著性能提升。这些优化已在H200集群的TP8和FP8配置上验证,提供高吞吐量与低延迟的生产蓝图。基准测试显示,在输入长度4096、输出1000的场景下,请求率达14 req/s时效果显著。所有优化已部分上游合并,并开源复现脚本。