嬴政天下
投稿
全部 197 AI原创 125 海外精选 72 AI测评 30
全部 30 🏠 本站权威测评 0 🔬 第三方权威测评 30
SGLang 性能优化 MoE模型 推理优化 LLM推理 RL训练 基准测试 AI推理 NVIDIA DGX Spark 模型量化 MoE优化 GB200 AI技术 EAGLE3 FP8
LMSYS

PD-Multiplexing:GreenContext驱动的高好吞吐LLM服务新范式

本文介绍我们在SGLang中支持全新服务范式PD-Multiplexing的初步成果,该范式旨在提升LLM服务的goodput。通过NVIDIA新功能GreenContext,实现同一进程内GPU资源的轻量级细粒度分区,支持prefill和decode阶段的intra-GPU空间共享,避免KV cache跨实例迁移,并动态分配SM资源。该方法解耦prefill和decode执行,确保严格SLO(如TTFT和ITL),基准测试显示在H200上相比chunked-prefill显著提升TTFT,在8xA100s真实负载下goodput最高提升3.06x。未来将提供详细教程。(128字)

PD-Multiplexing GreenContext
02-04 27

© 1998-2026 嬴政天下 www.winzheng.com

秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

RSS Sitemap