Tensor Cores - AI资讯

统一FP8：超越混合精度，实现稳定加速的MoE RL训练

我们实现了RL中全FP8采样和训练流程。实验显示，对于MoE模型，使用BF16训练结合FP8 rollout时，模型越大，训练-推理不一致性越严重。相比之下，统一FP8用于训练和rollout，能有效消除量化误差导致的训练-推理不一致，提升RL训练的速度与稳定性。本文详述FP8硬件基础、格式选择、尺度计算及量化策略，支持Qwen3-4B和Qwen3-30B-A3B的miles框架即插即用，由InfiXAI、Ant Group AQ、SGLang RL和Miles团队联合完成。（128字）

Tensor Cores (共1篇)

统一FP8：超越混合精度，实现稳定加速的MoE RL训练