AMD MI355X 借 SGLang 与 MoRI 实现 TCO 领先

2026年06月29日 14 阅读 - 阅读来源: LMSYS

LMSYS AMD MI355X SGLang MoRI 分布式推理 TCO 优化

SGLang 与 AMD 团队紧密协作，在 AMD Instinct™ MI355X GPU 上实现了大规模 DeepSeek-R1 分离式推理的竞争性总体拥有成本（TCO）。借助 SGLang 服务框架与 AMD MoRI 通信库，AMD 在关键运行点上达到甚至超越 NVIDIA B200（Dynamo + TRT-LLM）的 TCO 表现，结果已通过 SemiAnalysis 的 InferenceX 平台验证。

核心结果一览

在典型生产级编码助手与交互式聊天机器人场景（129 tok/s/user 交互性）下：

AMD Instinct™ MI355X（MoRI SGLang MTP）：每百万 token 成本 0.169 美元，每 GPU 吞吐 2436 tok/s（24 张 GPU）
NVIDIA B200（Dynamo TRT-LLM MTP）：每百万 token 成本 0.178 美元
NVIDIA B200（Dynamo SGLang MTP）：每百万 token 成本 0.284 美元

MI355X 成本分别比 B200 TRT-LLM 低 5%、比 B200 SGLang 低 40%，同时每 GPU 吞吐高出 B200 SGLang 1.25 倍。

关键优化技术

MoRI 量化 All-to-All

通过 FP4 dispatch + FP8 combine 混合量化，实现 2.56 倍带宽缩减，同时保持精度。Blockwise 量化与自适应内核选择进一步降低延迟。

MoRI-IO KV 缓存后端

支持无锁内联传输与多架构状态迁移，吞吐比 Mooncake 高约 10%。

Two-Batch Overlap 与 SDMA

通过双微批次流水线隐藏通信延迟，SDMA 实现零计算开销数据移动，显著提升整体吞吐。

本文来自 LMSYS 博客，赢政天下（winzheng.com）进行了全文翻译。点击这里查看原文如果转载中文，请注明出处，谢谢支持！

AMD MI355X 借 SGLang 与 MoRI 实现 TCO 领先

核心结果一览

关键优化技术

MoRI 量化 All-to-All

MoRI-IO KV 缓存后端

Two-Batch Overlap 与 SDMA

相关测评

LMSYS GLM4-MoE 生产优化：SGLang 实现 TTFT 加速 65%

LMSYS 异构CPU+GPU EPD解耦提升VLM服务性能

LMSYS SGLang 与 Miles 为 Nemotron 3 Ultra 提供 Day-0 支持

LMSYS 下一代推测解码：DFlash与Spec V2