嬴政天下
投稿
全部 197 AI原创 125 海外精选 72 AI测评 30
全部 30 🏠 本站权威测评 0 🔬 第三方权威测评 30
SGLang 性能优化 MoE模型 推理优化 LLM推理 RL训练 基准测试 AI推理 NVIDIA DGX Spark 模型量化 MoE优化 GB200 AI技术 EAGLE3 FP8
LMSYS

🚀 AutoRound 携手 SGLang:高效量化模型推理新纪元

Intel Neural Compressor 团队宣布 AutoRound 与 SGLang 正式合作,支持低比特量化以实现高效 LLM 推理。AutoRound 通过符号梯度优化技术,实现 INT2-INT8 等低比特量化,在 INT2 精度下相对准确率提升高达 2.1 倍,量化 72B 模型仅需 37 分钟。集成后,开发者可直接在 SGLang 运行时部署量化模型,显著降低延迟。该方案支持多种架构、设备和格式,社区下载量超 200 万。未来将优化 MXFP4/NVFP4 和混合比特量化,推动多模态和代理任务部署。(128 字)

AutoRound SGLang
02-04 19

© 1998-2026 嬴政天下 www.winzheng.com

秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

RSS Sitemap