将 Text-to-Video 引入 MLPerf Inference v6.0

MLPerf Inference v6.0 基准套件首次引入文本到视频(Text-to-Video)任务,标志着视频生成模型从实验性工具向专业工作流的核心转型。任务组选用阿里巴巴开源的 Wan2.2-T2V-A14B-Diffusers 模型,该模型采用独特的专家混合架构,通过高噪声和低噪声专家顺序激活生成高质量视频。基准限制视频时长为5秒、720p分辨率、16fps,数据集基于 VBench 精简至248样本,使用 SingleStream 场景测量延迟。VBench 提供16维质量评估,精选6关键指标确保准确性和公平性。参考实现基于 Hugging Face Diffusers,在 BF16 精度下准确率达70.48。该基准为消费者决策和厂商优化提供标准化参考。

引言

MLCommons MLPerf Inference 基准套件是衡量机器学习(ML)和人工智能(AI)工作负载性能的行业标准,涵盖视觉、语音和自然语言处理等领域。该套件精选代表行业前沿的负载,不仅为消费者提供部署和预算决策的关键信息,还帮助厂商在实际约束下优化工作负载。

过去一年,视频生成模型如 OpenAI Sora2 迅猛发展,从业余生成奇异视频转向专业创意工作流的核心工具。为此,MLPerf Text-to-Video 任务组成立,将专用视频生成基准纳入 MLPerf 套件。

模型选择

基准选用阿里巴巴于2025年7月发布的 Wan2.2-T2V-A14B-Diffusers 模型,当时它是 Text-to-Video 排行榜上最佳开源权重模型之一。该模型采用 Apache 2.0 许可 完全开源,可通过 Huggingface Diffusers 运行。

Wan2.2 模型由三部分管道组成:

  1. Google 的 UMT5 XXL 文本编码器,用于编码提示。
  2. Wan2.2 A14B 扩散 Transformer,用于生成视频潜在表示。
  3. Wan2.2 VAE 解码器,用于将潜在视频解码为帧序列。

Wan2.2-T2V-A14B-Diffusers 的关键特性是专家混合(MoE)架构,但不同于标准 MoE 无门控网络,而是顺序激活两个专家:早期去噪阶段使用“高噪声专家”,后期切换至“低噪声专家”。

有趣的是,大多数视频生成模型不逐帧生成,而是同时去噪整个视频潜在表示。例如,Wan2.2 的潜在表示覆盖 32×32 像素的 4 帧。生成 5 秒 720p 16fps 视频需序列长度达 19,320,导致计算密集型负载。

性能指标

设计基准时,最大挑战是选择性能指标。文本到视频任务计算昂贵,单查询往往需数分钟。

为确保可行性和前沿性,我们限制如下:

本文由 赢政天下编译整理,更多海外AI资讯,尽在 赢政天下

  • 配置:视频时长 5 秒,分辨率固定 720p,即生成 81 帧 720×1280 图像(16fps)。
  • 运行时目标:性能模式数据集缩减至 100/248 样本(准确模式保留 248)。

用 SingleStream 替换 Server 场景

基准重大变革是将 Server 场景替换为 SingleStream 以测量延迟。单视频生成需大量计算,常耗时数分钟。

Server 场景假设近实时处理,但实际会导致系统过载,大部分请求等待时间过长,无法准确反映硬件性能。因此,采用 SingleStream,仅测量处理时间,忽略等待时间。

数据集、准确率指标与任务选择

我们选用 VBench 作为官方数据集和准确率框架,经比较分析优先考虑许可、鲁棒性和易用性。

初始评估包括 OpenVid-1MVidGen-1MWebVid-10MActivityNet。首要过滤商业可用性:

  • VidGen-1MWebVid-10M 因非商业许可被淘汰。
  • OpenVid-1M 许可合适(CC BY 4.0),但仅数据集无评估框架。

VBench 脱颖而出,提供完整解决方案:多样提示集 + 预验证评分套件,包括 16 维质量指标如 Subject ConsistencyMotion SmoothnessAesthetic Quality;约 950 个标准化提示;确定性(固定种子下跨硬件稳定,如 NVIDIA、AMD);广泛采用(如 Wan 模型报告)。

VBench 默认配置耗时超 80 小时,为匹配 MLPerf,我们调整:

  • 数据集子集:聚焦 6 关键指标:Subject Consistency、Background Consistency、Motion Smoothness、Dynamic Degree、Appearance Style、Scene,确保区分度高,去除冗余。
  • 缩减规模:至 248 样本,平衡准确验证与运行时。

VBench 是唯一商业可行、合法清关且方法完整的框架,可适配 MLPerf 约束。

参考实现

为确保公平可复现,参考实现基于标准化开源基础:

  • 模型架构: Wan2.2-T2V-A14B-Diffusers(Wan-AI 托管),14B 参数扩散 Transformer。
  • 精度与计算: BF16 (BFloat16) 精度。
    • 参考准确率: 70.48(VBench)。
    • 最低阈值: 69.77(参考 99%)。
  • 生成管道: 基于 Hugging Face Diffusers
    • 输入: 文本提示 + 固定潜在张量(确保确定性)。
    • 调度器: UniPCMultistepScheduler(Wan2.2 默认)。