嬴政天下
投稿
全部 197 AI原创 125 海外精选 72 AI测评 30
全部 30 🏠 本站权威测评 0 🔬 第三方权威测评 30
SGLang 性能优化 MoE模型 推理优化 LLM推理 RL训练 基准测试 AI推理 NVIDIA DGX Spark 模型量化 MoE优化 GB200 AI技术 EAGLE3 FP8
LMSYS

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力,以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子,SGLang实现了完全确定性推理,同时兼容chunked prefill、CUDA graphs、radix cache和非贪婪采样,使用CUDA graphs可获2.8x加速,性能开销仅34.35%(优于TML的61.5%)。进一步,与slime结合,实现100%可重现RL训练,在Qwen3-8B上验证两轮独立训练曲线完全一致。通过全面测试套件验证确定性,支持FlashInfer、FlashAttention 3和Triton后端,适用于调试与科学实验。未来将优化性能至20%以内开销。

SGLang 确定性推理
02-04 34

© 1998-2026 嬴政天下 www.winzheng.com

秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

RSS Sitemap