性能优化 - AI资讯

SGLang-Diffusion 两个月的进展

自2025年11月初发布以来，SGLang-Diffusion在社区中引起了广泛关注和应用。我们非常感谢开源开发者的反馈和贡献。经过两个月的优化，SGLang-Diffusion的速度提升了2.5倍。本文总结了我们在模型支持、LoRA支持、并行性、硬件兼容性等方面的进展，并详细介绍了关键的技术改进和性能基准测试结果。

NVIDIA DGX Spark上优化GPT-OSS：释放Spark最大潜力

NVIDIA DGX Spark正式发布一周后，我们与NVIDIA紧密合作，在其上成功部署了GPT-OSS 20B和GPT-OSS 120B模型，支持SGLang框架。性能亮眼：GPT-OSS 20B达到约70 tokens/s，GPT-OSS 120B约50 tokens/s，堪称目前最先进水平，完全支持本地编码代理运行。本文详细指导如何在DGX Spark上运行这些模型、进行性能基准测试、连接Open WebUI聊天界面，甚至通过LMRouter完全本地化运行Claude Code。附带详细基准表格和演示视频，助力用户将DGX Spark打造成强大的本地AI工作站。（128字）

Mini-SGLang：轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架，仅用5k行Python代码，即实现了高性能LLM推理，支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Parallelism等先进特性。它兼容OpenAI API，支持Llama-3和Qwen-3模型，适合学习和研究原型开发。基准测试显示，在H200 GPU上，Mini-SGLang的离线吞吐量超越Nano-vLLM，在线服务延迟与SGLang相当。通过Overlap Scheduling有效隐藏CPU开销，利用FlashAttention-3和FlashInfer内核，确保顶尖性能。该框架提供交互Shell模式、NVTX注解和基准工具，便于调试和比较vLLM、TensorRT-LLM等系统。（128字）

SGLang 中的 EPD 解耦：视觉语言模型弹性编码器扩展

SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构，将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离，实现视觉编码容量的独立水平扩展，提升资源利用率。该方案兼容现有的 Prefill-Decode (PD) 解耦，形成三层架构，支持多种传输后端和视觉嵌入缓存。在图像密集场景下，EPD 显著降低 TTFT（首 Token 时间），负载下比同置部署低 6–8 倍；吞吐量提升约 2 倍。但图像稀疏场景可能引入额外网络延迟。基准测试基于 Qwen3-VL-235B，在 8 张 H20 GPU 上验证其在多图像请求中的优势。（128 字）

SGLang优化GLM4-MoE生产部署：TTFT提升65%

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略，涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术，在代理编码工作负载下实现了TTFT降低高达65%、TPOT提升22%的显著性能提升。这些优化已在H200集群的TP8和FP8配置上验证，提供高吞吐量与低延迟的生产蓝图。基准测试显示，在输入长度4096、输出1000的场景下，请求率达14 req/s时效果显著。所有优化已部分上游合并，并开源复现脚本。

性能优化 (共5篇)

SGLang-Diffusion 两个月的进展

NVIDIA DGX Spark上优化GPT-OSS：释放Spark最大潜力

Mini-SGLang：轻量高效LLM推理引擎全解析

SGLang 中的 EPD 解耦：视觉语言模型弹性编码器扩展

SGLang优化GLM4-MoE生产部署：TTFT提升65%