混合精度推理 - AI测评

AMD GPU 上 FP4 混合精度推理优化

随着前沿大语言模型（LLM）规模不断扩大，对 GPU 计算力和内存带宽的需求激增。GPU 厂商和模型开发者正转向低精度浮点格式，其中 FP4（4 位浮点）量化备受关注，例如 FP4 量化的 Llama 3.3 70B 模型体积缩小 3.5 倍，同时在 MMLU 等基准上质量损失最小。然而，现有的 AMD Instinct MI250 和 MI300 系列 GPU 缺乏原生 FP4 支持。为此，我们开发了 Petit——专为 AMD GPU 优化的 FP16/BF16 × FP4 混合精度内核集合。它在 MI200 和 MI300 系列上实现 FP4 模型高效推理：使用 SGLang 时端到端性能提升 1.74 倍，矩阵乘法比 hipBLASLt 快至 3.7 倍。Petit 已开源并集成至 SGLang 0.4.10，支持无缝部署 Llama 3.3 70B FP4 模型。（128 字）