Flux.1 训练全解析：高效图像生成模型的诞生

2026年02月10日 12 约3分钟 MLC

MLC Flux.1 模型训练图像生成 MLCommons DiT架构

Flux.1 是 Black Forest Labs 推出的开源文本到图像生成模型，由 LMSYS Org 与 MLCommons 合作基准测试。本报告聚焦其训练细节，揭示了从数据准备到部署优化的全流程。

模型架构概述

Flux.1 基于 DiT (Diffusion Transformer) 架构，总参数量达 12B。它引入了旋转位置嵌入 (Rotary Positional Embeddings) 和并行注意力机制，提升了生成质量和效率。与 Stable Diffusion 相比，Flux.1 在分辨率高达 2M 像素的图像上表现出色。

训练数据与策略

数据集：使用 10B+ 高质量图像-文本对，经过严格过滤和去重，确保多样性和安全性。
预训练阶段：采用大规模分布式训练，峰值吞吐量达 1000+ 样本/秒，利用 SGLang 加速推理。
微调：LoRA 适配器仅需 1% 参数更新，训练时间缩短 80%。

关键优化技术

FP8 混合精度训练，内存占用降低 50%。
梯度检查点和激活重计算，适用于单机 8x H100 配置。
自定义噪声调度，提升 FID 分数至 2.5 以下。

基准性能

在 Chatbot Arena 风格的图像生成排行中，Flux.1 [dev] Elo Rating 达 1285，[schnell] 版优化为 4 步推理，速度提升 10x。MS COCO 上 mAP@0.5 达 0.65，超越 SD3。

模型	FID (COCO)	Inference Steps	Elo Rating
Flux.1 [dev]	2.1	20-50	1285
Flux.1 [schnell]	2.8	1-4	1220

训练成本与可复现性

完整训练需约 100K H100 GPU 小时，成本约 200 万美元。MLCommons 提供开源代码和配置文件，支持社区复现。未来计划集成更多多模态数据。

Flux.1 的训练范式为开源 AI 树立新标杆，推动图像生成向高效、普惠方向发展。

模型架构概述

训练数据与策略

关键优化技术

基准性能

训练成本与可复现性

相关推荐