长上下文推理 (共2篇)

GB300 NVL72部署DeepSeek:长上下文推理大幅提升

Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展,采用prefill–decode disaggregation (PD)、chunked pipeline parallelism (PP)、wide expert parallelism (Wide-EP)、multi-token prediction (MTP)等技术。在长上下文负载下,SGLang在GB300 NVL72上实现最高226 TPS/GPU(较GB200提升1.53X),MTP进一步提升用户吞吐量1.87X。与GB200同等延迟条件下,GB300 TPS/GPU提升1.4X–1.6X。亮点包括EP解码扩展、PP预填充优化及更快注意力内核。复现指南见GitHub issue:18703。(128字)

LMSYS GB300 NVL72 DeepSeek
388

SGLang 即日支持 DeepSeek-V3.2 稀疏注意力机制

SGLang 团队宣布即日(Day 0)支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus,通过持续训练引入 DeepSeek Sparse Attention (DSA),一种由 Lightning Indexer 驱动的细粒度稀疏注意力机制,在训练和推理中显著提升效率,尤其适用于长上下文场景(达 128K)。SGLang 集成了 Lightning Indexer 支持、Native Sparse Attention (NSA) 后端(包括 FlashMLA 和 FlashAttention-3 Sparse),并优化了动态缓存管理,降低内存开销,实现 GPU 优化的稀疏注意力。文章提供 NVIDIA、AMD 和 NPU 的快速启动命令,并展望未来功能如 Multi-token Prediction (MTP) 和 FP8 KV Cache。