嬴政天下
投稿
全部 197 AI原创 125 海外精选 72 AI测评 30
全部 30 🏠 本站权威测评 0 🔬 第三方权威测评 30
SGLang 性能优化 MoE模型 推理优化 LLM推理 RL训练 基准测试 AI推理 NVIDIA DGX Spark 模型量化 MoE优化 GB200 AI技术 EAGLE3 FP8
LMSYS

🚀 AutoRound 携手 SGLang:高效量化模型推理新纪元

Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作,支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术,实现 INT2-INT8 等低比特量化,在 INT2 精度下相对准确率提升高达 2.1 倍,量化 72B 模型仅需 37 分钟。集成后,开发者可直接在 SGLang 运行时部署量化模型,显著降低延迟。该方案支持多种架构、设备和格式,社区下载量超 200 万。未来将优化 MXFP4/NVFP4 和混合比特量化,推动多模态和代理任务部署。(128 字)

AutoRound SGLang
02-04 18
LMSYS

Miles发布:点燃大规模MoE训练的企业级RL框架

千里之行,始于足下。今天,RadixArk团队发布了Miles,一个专为大规模MoE训练和生产环境打造的企业级强化学习框架。Miles基于轻量级RL框架slime构建,后者已悄然驱动众多后训练管道和大模型MoE训练(如GLM-4.6)。slime证明了轻量设计的可行性,而Miles则更进一步,提供企业级可靠性和大规模控制。新功能包括真On-Policy支持(KL散度精确为0)、内存优化、在线草稿模型训练(rollout加速25%以上)等。未来将支持GB300硬件、多模态训练和弹性扩展,助力高效可靠的RL训练。(128字)

Miles 强化学习
02-04 16
LMSYS

从研究到生产:EAGLE-3在Vertex AI加速开源LLM推理2-3倍

推测解码(Speculative Decoding)能显著提升LLM推理速度,但传统方法需额外训练低效的草稿模型。Vertex AI采用EAGLE-3创新方案,仅在目标模型内部层添加轻量级草稿头(仅占2-5%模型大小),简化训练并实现2x-3x解码加速。本文详述从数据清洗、嵌入生成、训练到使用SGLang在Vertex AI大规模部署的完整管道,分享关键挑战与经验教训,包括合成数据管道、离线训练、聊天模板应用、掩码处理及Zero-Overhead Overlap Scheduler优化。基准测试显示,在Llama 4 Scout 17B上,EAGLE-3显著降低TPOT并提升吞吐量。(128字)

EAGLE-3 Speculative Decoding
02-04 14
LMSYS

SGLang推理加速:原生集成NVIDIA Model Optimizer,实现无缝量化部署

SGLang最新功能原生支持NVIDIA Model Optimizer量化!这一集成简化了从全精度模型到高性能量化端点的整个优化与部署流程,无需多步工具切换。通过SGLang中的ModelOpt API,只需三步即可完成量化(支持NVFP4、MXFP4、FP8等)、导出与部署。性能表现突出:在NVIDIA B200上,Model Optimizer与SGLang优化可实现比原生FP8高达2倍的单GPU吞吐量。结合Blackwell架构,从DGX Spark到GB300 NVL72均可显著提升延迟降低与内存节省。提供完整示例代码,助力开发者快速上手。(128字)

SGLang NVIDIA Model Optimizer
02-04 14
LMSYS

让张量翱翔:R-Fork 加速大模型权重加载

本文介绍 Tensor R-Fork(Tensor Remote Fork),一种创新的权重加载方法,利用高效的跨节点设备间互连,从运行中的 SGLang 实例零拷贝加载张量至新实例。该技术带来三大优势:显著加速权重加载(如 Deepseek-R1 从数分钟缩短至秒级)、消除本地磁盘/DRAM 冗余存储(节省约 600GB)、不干扰推理服务。核心设计基于 GPU-Direct RDMA 构建 P2P 权重存储架构,支持 NCCL 和 TransferEngine 两种后端。性能测试显示,在 8 张 NVIDIA H20 GPU 上加载 Deepseek-R1 模型时间大幅缩短,已实现生产就绪。

SGLang Tensor R-Fork
02-04 12
LMSYS

SGLang 当日即支持高效开源 Nemotron 3 Nano 混合 MoE 模型

SGLang 快速集成 NVIDIA 最新发布的 Nemotron 3 Nano 模型,该模型采用混合 Transformer-Mamba 架构与 MoE 设计,总参数 30B、激活参数仅 3.6B,支持 1M 上下文长度。在 NVFP4 精度下,通过 Quantization-Aware Distillation (QAD) 技术保持高准确率,同时在 B200 上实现比 FP8-H100 高 4 倍的吞吐量。模型在编码、科学推理、数学和指令跟随等基准上领先,适用于构建企业级 AI 代理。SGLang 提供即插即用支持,开发者可轻松部署于 RTX Pro 6000、H100 等 GPU。(128 字)

SGLang Nemotron 3 Nano
02-04 15
LMSYS

SGLang即刻支持MiMo-V2-Flash模型

小米MiMo-V2-Flash模型总参数达309B,激活参数仅15B,专为最大化解码效率而设计,核心采用滑动窗口注意力(SWA)和多层MTP机制。该模型针对真实服务负载优化,支持不同硬件上吞吐量与延迟的灵活权衡。结合SGLang的Spec v2运行时,几乎零开销支持多层MTP和高效SWA执行,在H200上实现TPOT与吞吐量的完美平衡。本文详解模型设计、推理高效机制、硬件感知配置、SGLang快速服务支持,并提供基准数据与部署指南。(128字)

MiMo-V2-Flash SGLang
02-04 11
LMSYS

Mini-SGLang:轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架,仅用5k行Python代码,即实现了高性能LLM推理,支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Parallelism等先进特性。它兼容OpenAI API,支持Llama-3和Qwen-3模型,适合学习和研究原型开发。基准测试显示,在H200 GPU上,Mini-SGLang的离线吞吐量超越Nano-vLLM,在线服务延迟与SGLang相当。通过Overlap Scheduling有效隐藏CPU开销,利用FlashAttention-3和FlashInfer内核,确保顶尖性能。该框架提供交互Shell模式、NVTX注解和基准工具,便于调试和比较vLLM、TensorRT-LLM等系统。(128字)

Mini-SGLang LLM推理
02-04 15
LMSYS

SGLang 赋能扩散大模型:即日支持 LLaDA 2.0

我们兴奋地推出 SGLang 中的 Diffusion Large Language Model (dLLM) 框架设计与实现。通过利用现有的 ChunkedPrefill 机制,该系统实现了无缝集成、无需核心架构变更、继承现有推理优化,并提供最大灵活性让用户自定义扩散解码算法。LLaDA 作为首款 dLLM,展现出优异的数据理解能力和更快推理速度,尤其在低延迟小批量场景。面对大规模 dLLM 如 100B LLaDA2.0-flash 的评估与 RL 后训练挑战,现有的推理引擎不足以支撑。我们在 SGLang 中引入 Block Diffusion 支持,利用 Chunked-Prefill 管道,仅微调关键组件,实现高效批处理与流式输出,显著提升吞吐量(如 LLaDA2.0-flash-CAP 达 935 tokens/s)。(128字)

SGLang dLLM
02-04 12
LMSYS

SGLang 中的 EPD 解耦:视觉语言模型弹性编码器扩展

SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构,将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离,实现视觉编码容量的独立水平扩展,提升资源利用率。该方案兼容现有的 Prefill-Decode (PD) 解耦,形成三层架构,支持多种传输后端和视觉嵌入缓存。在图像密集场景下,EPD 显著降低 TTFT(首 Token 时间),负载下比同置部署低 6–8 倍;吞吐量提升约 2 倍。但图像稀疏场景可能引入额外网络延迟。基准测试基于 Qwen3-VL-235B,在 8 张 H20 GPU 上验证其在多图像请求中的优势。(128 字)

SGLang EPD
02-04 15
LMSYS

单H200部署1TB模型:INT4 QAT RL端到端实践

受Kimi K2团队启发,SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化,实现了与BF16全精度相当的稳定性和训推一致性。极致INT4压缩让约1TB规模模型单节点H200(141GB)部署,避免跨节点通信瓶颈,大幅提升部署效率。本文详解开源生态下完整pipeline的技术细节,提供高性能低成本的实用参考。项目由SGLang RL、InfiXAI、蚂蚁集团Asystem & AQ Infra、slime和RadixArk团队联合完成,已同步至slime和Miles社区。(128字)

INT4 QAT 量化感知训练
02-04 13
LMSYS

SGLang优化GLM4-MoE生产部署:TTFT提升65%

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略,涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术,在代理编码工作负载下实现了TTFT降低高达65%、TPOT提升22%的显著性能提升。这些优化已在H200集群的TP8和FP8配置上验证,提供高吞吐量与低延迟的生产蓝图。基准测试显示,在输入长度4096、输出1000的场景下,请求率达14 req/s时效果显著。所有优化已部分上游合并,并开源复现脚本。

GLM4-MoE SGLang
02-04 21
1 2

© 1998-2026 嬴政天下 www.winzheng.com

秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

RSS Sitemap