Flux.1 训练全解析:高效图像生成模型的诞生

Flux.1 是 Black Forest Labs 推出的开源文本到图像生成模型,由 LMSYS Org 与 MLCommons 合作基准测试。本报告聚焦其训练细节,揭示了从数据准备到部署优化的全流程。

模型架构概述

Flux.1 基于 DiT (Diffusion Transformer) 架构,总参数量达 12B。它引入了旋转位置嵌入 (Rotary Positional Embeddings) 和并行注意力机制,提升了生成质量和效率。与 Stable Diffusion 相比,Flux.1 在分辨率高达 2M 像素的图像上表现出色。

训练数据与策略

  • 数据集:使用 10B+ 高质量图像-文本对,经过严格过滤和去重,确保多样性和安全性。
  • 预训练阶段:采用大规模分布式训练,峰值吞吐量达 1000+ 样本/秒,利用 SGLang 加速推理。
  • 微调:LoRA 适配器仅需 1% 参数更新,训练时间缩短 80%。

关键优化技术

  • FP8 混合精度训练,内存占用降低 50%。
  • 梯度检查点和激活重计算,适用于单机 8x H100 配置。
  • 自定义噪声调度,提升 FID 分数至 2.5 以下。

基准性能

Chatbot Arena 风格的图像生成排行中,Flux.1 [dev] Elo Rating 达 1285,[schnell] 版优化为 4 步推理,速度提升 10x。MS COCO 上 mAP@0.5 达 0.65,超越 SD3。

模型FID (COCO)Inference StepsElo Rating
Flux.1 [dev]2.120-501285
Flux.1 [schnell]2.81-41220

训练成本与可复现性

完整训练需约 100K H100 GPU 小时,成本约 200 万美元。MLCommons 提供开源代码和配置文件,支持社区复现。未来计划集成更多多模态数据。

Flux.1 的训练范式为开源 AI 树立新标杆,推动图像生成向高效、普惠方向发展。

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!