DeepSeek-V3.2 - AI测评

SGLang 即日支持 DeepSeek-V3.2 稀疏注意力机制

SGLang 团队宣布即日（Day 0）支持 DeepSeek-V3.2 模型。该模型基于 DeepSeek-V3.1-Terminus，通过持续训练引入 DeepSeek Sparse Attention (DSA)，一种由 Lightning Indexer 驱动的细粒度稀疏注意力机制，在训练和推理中显著提升效率，尤其适用于长上下文场景（达 128K）。SGLang 集成了 Lightning Indexer 支持、Native Sparse Attention (NSA) 后端（包括 FlashMLA 和 FlashAttention-3 Sparse），并优化了动态缓存管理，降低内存开销，实现 GPU 优化的稀疏注意力。文章提供 NVIDIA、AMD 和 NPU 的快速启动命令，并展望未来功能如 Multi-token Prediction (MTP) 和 FP8 KV Cache。