Suffix Decoding - AI测评

SGLang优化GLM4-MoE生产部署：TTFT提升65%

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略，涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术，在代理编码工作负载下实现了TTFT降低高达65%、TPOT提升22%的显著性能提升。这些优化已在H200集群的TP8和FP8配置上验证，提供高吞吐量与低延迟的生产蓝图。基准测试显示，在输入长度4096、输出1000的场景下，请求率达14 req/s时效果显著。所有优化已部分上游合并，并开源复现脚本。