GB300 NVL72部署DeepSeek:长上下文推理大幅提升
Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展,采用prefill–decode disaggregation (PD)、chunked pipeline parallelism (PP)、wide expert parallelism (Wide-EP)、multi-token prediction (MTP)等技术。在长上下文负载下,SGLang在GB300 NVL72上实现最高226 TPS/GPU(较GB200提升1.53X),MTP进一步提升用户吞吐量1.87X。与GB200同等延迟条件下,GB300 TPS/GPU提升1.4X–1.6X。亮点包括EP解码扩展、PP预填充优化及更快注意力内核。复现指南见GitHub issue:18703。(128字)