Flux.1 是 Black Forest Labs 推出的开源文本到图像生成模型,由 LMSYS Org 与 MLCommons 合作基准测试。本报告聚焦其训练细节,揭示了从数据准备到部署优化的全流程。
模型架构概述
Flux.1 基于 DiT (Diffusion Transformer) 架构,总参数量达 12B。它引入了旋转位置嵌入 (Rotary Positional Embeddings) 和并行注意力机制,提升了生成质量和效率。与 Stable Diffusion 相比,Flux.1 在分辨率高达 2M 像素的图像上表现出色。
训练数据与策略
- 数据集:使用 10B+ 高质量图像-文本对,经过严格过滤和去重,确保多样性和安全性。
- 预训练阶段:采用大规模分布式训练,峰值吞吐量达 1000+ 样本/秒,利用 SGLang 加速推理。
- 微调:LoRA 适配器仅需 1% 参数更新,训练时间缩短 80%。
关键优化技术
- FP8 混合精度训练,内存占用降低 50%。
- 梯度检查点和激活重计算,适用于单机 8x H100 配置。
- 自定义噪声调度,提升 FID 分数至 2.5 以下。
基准性能
在 Chatbot Arena 风格的图像生成排行中,Flux.1 [dev] Elo Rating 达 1285,[schnell] 版优化为 4 步推理,速度提升 10x。MS COCO 上 mAP@0.5 达 0.65,超越 SD3。
| 模型 | FID (COCO) | Inference Steps | Elo Rating |
|---|---|---|---|
| Flux.1 [dev] | 2.1 | 20-50 | 1285 |
| Flux.1 [schnell] | 2.8 | 1-4 | 1220 |
训练成本与可复现性
完整训练需约 100K H100 GPU 小时,成本约 200 万美元。MLCommons 提供开源代码和配置文件,支持社区复现。未来计划集成更多多模态数据。
Flux.1 的训练范式为开源 AI 树立新标杆,推动图像生成向高效、普惠方向发展。