LLM推理 - AI资讯 | 赢政天下

SGLang在NVIDIA GTC 2026的高光时刻

SGLang团队携多项活动亮相NVIDIA GTC 2026，包括主旨演讲展示、开源AI专题讨论、动手训练实验室，以及Happy Hour和200人规模的LinkedIn联办Meetup。短短三天，五场盛会，聚焦LLM生态核心，汇聚OpenAI、xAI、Meta等巨头代表。本文详尽回顾各环节亮点：从Jensen Huang主旨演讲中SGLang的生态认可，到RadixArk团队的性能调优演示，再到Miles RL框架的深度分享，以及LinkedIn工程师揭示的2-3倍H100吞吐量优化。展望未来，开源基础设施正加速融合生产生态，推动搜索、推荐与Agentic AI创新。（128字）

Groq LPU刷新LLM推理速度纪录：每秒500 Token远超GPU

AI芯片初创公司Groq近日公布LPU（语言处理单元）在LLM推理中实现每秒500 Token的新纪录，远超传统GPU性能。公司演示视频在X平台病毒式传播，开发者赞叹其低延迟潜力，或将重塑AI推理市场格局。

🚀 AutoRound 携手 SGLang：高效量化模型推理新纪元

Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作，支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术，实现 INT2-INT8 等低比特量化，在 INT2 精度下相对准确率提升高达 2.1 倍，量化 72B 模型仅需 37 分钟。集成后，开发者可直接在 SGLang 运行时部署量化模型，显著降低延迟。该方案支持多种架构、设备和格式，社区下载量超 200 万。未来将优化 MXFP4/NVFP4 和混合比特量化，推动多模态和代理任务部署。（128 字）

Mini-SGLang：轻量高效LLM推理引擎全解析

Mini-SGLang是SGLang项目的轻量版推理框架，仅用5k行Python代码，即实现了高性能LLM推理，支持Radix Attention、Chunked Prefill、Overlap Scheduling和Tensor Parallelism等先进特性。它兼容OpenAI API，支持Llama-3和Qwen-3模型，适合学习和研究原型开发。基准测试显示，在H200 GPU上，Mini-SGLang的离线吞吐量超越Nano-vLLM，在线服务延迟与SGLang相当。通过Overlap Scheduling有效隐藏CPU开销，利用FlashAttention-3和FlashInfer内核，确保顶尖性能。该框架提供交互Shell模式、NVTX注解和基准工具，便于调试和比较vLLM、TensorRT-LLM等系统。（128字）

SpecBundle与SpecForge v0.2：生产级推测解码模型与框架重磅发布

SpecForge团队携手蚂蚁集团、Meituan、Nex-AGI和EigenAI等行业伙伴，推出SpecBundle（Phase 1），这是基于大规模数据集训练的生产级EAGLE3模型检查点集合，旨在提升推测解码的可用性和实际性能，第一阶段聚焦指令微调模型。同时，SpecForge v0.2带来重大系统升级，包括全面重构以提升易用性，并支持多执行后端，进一步增强可扩展性和生产就绪度。该举措解决开源社区中推测解码工具匮乏、高质量草稿模型稀缺以及训练数据规模不足等问题，推动EAGLE3等SOTA方法在本地和企业部署中的广泛应用。（128字）

LLM推理 (共5篇)

SGLang在NVIDIA GTC 2026的高光时刻

Groq LPU刷新LLM推理速度纪录：每秒500 Token远超GPU

🚀 AutoRound 携手 SGLang：高效量化模型推理新纪元

Mini-SGLang：轻量高效LLM推理引擎全解析

SpecBundle与SpecForge v0.2：生产级推测解码模型与框架重磅发布