LLM推理 (共5篇)

SGLang在NVIDIA GTC 2026的高光时刻

SGLang团队携多项活动亮相NVIDIA GTC 2026,包括主旨演讲展示、开源AI专题讨论、动手训练实验室,以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天,五场盛会,聚焦LLM生态核心,汇聚OpenAI、xAI、Meta等巨头代表。本文详尽回顾各环节亮点:从Jensen Huang主旨演讲中SGLang的生态认可,到RadixArk团队的性能调优演示,再到Miles RL框架的深度分享,以及LinkedIn工程师揭示的2-3倍H100吞吐量优化。展望未来,开源基础设施正加速融合生产生态,推动搜索、推荐与Agentic AI创新。(128字)

LMSYS SGLang NVIDIA GTC
446

🚀 AutoRound 携手 SGLang:高效量化模型推理新纪元

Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作,支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术,实现 INT2-INT8 等低比特量化,在 INT2 精度下相对准确率提升高达 2.1 倍,量化 72B 模型仅需 37 分钟。集成后,开发者可直接在 SGLang 运行时部署量化模型,显著降低延迟。该方案支持多种架构、设备和格式,社区下载量超 200 万。未来将优化 MXFP4/NVFP4 和混合比特量化,推动多模态和代理任务部署。(128 字)

LMSYS AutoRound SGLang
766

Mini-SGLang:轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架,仅用5k行Python代码,即实现了高性能LLM推理,支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Parallelism等先进特性。它兼容OpenAI API,支持Llama-3和Qwen-3模型,适合学习和研究原型开发。基准测试显示,在H200 GPU上,Mini-SGLang的离线吞吐量超越Nano-vLLM,在线服务延迟与SGLang相当。通过Overlap Scheduling有效隐藏CPU开销,利用FlashAttention-3和FlashInfer内核,确保顶尖性能。该框架提供交互Shell模式、NVTX注解和基准工具,便于调试和比较vLLM、TensorRT-LLM等系统。(128字)

LMSYS Mini-SGLang LLM推理
768

SpecBundle与SpecForge v0.2:生产级推测解码模型与框架重磅发布

SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴,推出SpecBundle(Phase 1),这是基于大规模数据集训练的生产级EAGLE3模型检查点集合,旨在提升推测解码的可用性和实际性能,第一阶段聚焦指令微调模型。同时,SpecForge v0.2带来重大系统升级,包括全面重构以提升易用性,并支持多执行后端,进一步增强可扩展性和生产就绪度。该举措解决开源社区中推测解码工具匮乏、高质量草稿模型稀缺以及训练数据规模不足等问题,推动EAGLE3等SOTA方法在本地和企业部署中的广泛应用。(128字)