INT4 QAT - AI测评 | 赢政天下

单H200部署1TB模型：INT4 QAT RL端到端实践

受Kimi K2团队启发，SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化，实现了与BF16全精度相当的稳定性和训推一致性。极致INT4压缩让约1TB规模模型单节点H200（141GB）部署，避免跨节点通信瓶颈，大幅提升部署效率。本文详解开源生态下完整pipeline的技术细节，提供高性能低成本的实用参考。项目由SGLang RL、InfiXAI、蚂蚁集团Asystem & AQ Infra、slime和RadixArk团队联合完成，已同步至slime和Miles社区。（128字）