GLM4-MoE 生产优化：SGLang 实现 TTFT 加速 65%

Jun 29, 2026 19 Views - Read Source LMSYS

LMSYS SGLang GLM4-MoE 推理优化 MoE模型性能基准

This article has not been translated into English yet. Showing the original Chinese version.

Novita AI 基于 SGLang 为 GLM4-MoE 模型开发了一套经过生产验证的高影响力优化方案。我们提出端到端性能优化策略，覆盖从内核执行效率到跨节点数据传输调度的整个推理流程。通过集成 Shared Experts Fusion 与 Suffix Decoding，在代理编码工作负载下实现了关键指标的大幅提升。

核心生产优化实现

1. Shared Experts Fusion

该优化源于 Deepseek 模型相关工作。GLM4.7 将所有输入 token 通过共享专家，同时每个 token 还会被路由到 top-k 专家，最终加权聚合输出。通过将共享专家合并到路由 MoE 结构中（从 161 个专家中选 top 9），在 TP8 FP8 配置下显著提升 SM 利用率并减少内存 I/O 开销。