嬴政天下
投稿
全部 197 AI原创 125 海外精选 72 AI测评 30
全部 30 🏠 本站权威测评 0 🔬 第三方权威测评 30
SGLang 性能优化 MoE模型 推理优化 LLM推理 RL训练 基准测试 AI推理 NVIDIA DGX Spark 模型量化 MoE优化 GB200 AI技术 EAGLE3 FP8
LMSYS

统一FP8:超越混合精度,实现稳定加速的MoE RL训练

我们实现了RL中全FP8采样和训练流程。实验显示,对于MoE模型,使用BF16训练结合FP8 rollout时,模型越大,训练-推理不一致性越严重。相比之下,统一FP8用于训练和rollout,能有效消除量化误差导致的训练-推理不一致,提升RL训练的速度与稳定性。本文详述FP8硬件基础、格式选择、尺度计算及量化策略,支持Qwen3-4B和Qwen3-30B-A3B的miles框架即插即用,由InfiXAI、Ant Group AQ、SGLang RL和Miles团队联合完成。(128字)

FP8 RL训练
02-04 12

© 1998-2026 嬴政天下 www.winzheng.com

秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

RSS Sitemap