CUDA Graphs - AI测评 | 赢政天下

SGLang实现确定性推理与可重现RL训练

本文介绍SGLang团队在实现确定性推理方面的努力，以及与slime团队合作推动可重现RL训练的进展。基于Thinking Machines Lab的batch-invariant算子，SGLang实现了完全确定性推理，同时兼容chunked prefill、CUDA graphs、radix cache和非贪婪采样，使用CUDA graphs可获2.8x加速，性能开销仅34.35%（优于TML的61.5%）。进一步，与slime结合，实现100%可重现RL训练，在Qwen3-8B上验证两轮独立训练曲线完全一致。通过全面测试套件验证确定性，支持FlashInfer、FlashAttention 3和Triton后端，适用于调试与科学实验。未来将优化性能至20%以内开销。