将 Text-to-Video 引入 MLPerf Inference v6.0

2026年03月12日 586 阅读 - 阅读来源: MLC

MLC MLPerf Text-to-Video Wan2.2 VBench AI基准

引言

MLCommons^Ⓡ MLPerf^Ⓡ Inference 基准套件是衡量机器学习（ML）和人工智能（AI）工作负载性能的行业标准，涵盖视觉、语音和自然语言处理等领域。该套件精选代表行业前沿的负载，不仅为消费者提供部署和预算决策的关键信息，还帮助厂商在实际约束下优化工作负载。

过去一年，视频生成模型如 OpenAI Sora2 迅猛发展，从业余生成奇异视频转向专业创意工作流的核心工具。为此，MLPerf Text-to-Video 任务组成立，将专用视频生成基准纳入 MLPerf 套件。

模型选择

基准选用阿里巴巴于2025年7月发布的 Wan2.2-T2V-A14B-Diffusers 模型，当时它是 Text-to-Video 排行榜上最佳开源权重模型之一。该模型采用 Apache 2.0 许可 完全开源，可通过 Huggingface Diffusers 运行。

Wan2.2 模型由三部分管道组成：

Google 的 UMT5 XXL 文本编码器，用于编码提示。
Wan2.2 A14B 扩散 Transformer，用于生成视频潜在表示。
Wan2.2 VAE 解码器，用于将潜在视频解码为帧序列。

Wan2.2-T2V-A14B-Diffusers 的关键特性是专家混合（MoE）架构，但不同于标准 MoE 无门控网络，而是顺序激活两个专家：早期去噪阶段使用“高噪声专家”，后期切换至“低噪声专家”。

有趣的是，大多数视频生成模型不逐帧生成，而是同时去噪整个视频潜在表示。例如，Wan2.2 的潜在表示覆盖 32×32 像素的 4 帧。生成 5 秒 720p 16fps 视频需序列长度达 19,320，导致计算密集型负载。

性能指标

设计基准时，最大挑战是选择性能指标。文本到视频任务计算昂贵，单查询往往需数分钟。

为确保可行性和前沿性，我们限制如下：

配置：视频时长 5 秒，分辨率固定 720p，即生成 81 帧 720×1280 图像（16fps）。
运行时目标：性能模式数据集缩减至 100/248 样本（准确模式保留 248）。

用 SingleStream 替换 Server 场景

基准重大变革是将 Server 场景替换为 SingleStream 以测量延迟。单视频生成需大量计算，常耗时数分钟。

Server 场景假设近实时处理，但实际会导致系统过载，大部分请求等待时间过长，无法准确反映硬件性能。因此，采用 SingleStream，仅测量处理时间，忽略等待时间。

数据集、准确率指标与任务选择

我们选用 VBench 作为官方数据集和准确率框架，经比较分析优先考虑许可、鲁棒性和易用性。

初始评估包括 OpenVid-1M、VidGen-1M、WebVid-10M 和 ActivityNet。首要过滤商业可用性：

VidGen-1M 和 WebVid-10M 因非商业许可被淘汰。
OpenVid-1M 许可合适（CC BY 4.0），但仅数据集无评估框架。

VBench 脱颖而出，提供完整解决方案：多样提示集 + 预验证评分套件，包括 16 维质量指标如 Subject Consistency、Motion Smoothness 和 Aesthetic Quality；约 950 个标准化提示；确定性（固定种子下跨硬件稳定，如 NVIDIA、AMD）；广泛采用（如 Wan 模型报告）。

VBench 默认配置耗时超 80 小时，为匹配 MLPerf，我们调整：

数据集子集：聚焦 6 关键指标：Subject Consistency、Background Consistency、Motion Smoothness、Dynamic Degree、Appearance Style、Scene，确保区分度高，去除冗余。
缩减规模：至 248 样本，平衡准确验证与运行时。

VBench 是唯一商业可行、合法清关且方法完整的框架，可适配 MLPerf 约束。

参考实现

为确保公平可复现，参考实现基于标准化开源基础：

模型架构： Wan2.2-T2V-A14B-Diffusers（Wan-AI 托管），14B 参数扩散 Transformer。
精度与计算： BF16 (BFloat16) 精度。
- 参考准确率： 70.48（VBench）。
- 最低阈值： 69.77（参考 99%）。
生成管道： 基于 Hugging Face Diffusers。
- 输入： 文本提示 + 固定潜在张量（确保确定性）。
- 调度器： UniPCMultistepScheduler（Wan2.2 默认）。

本文来自 MLC 博客，赢政天下（winzheng.com）进行了全文翻译。点击这里查看原文如果转载中文，请注明出处，谢谢支持！

将 Text-to-Video 引入 MLPerf Inference v6.0

引言

模型选择

性能指标

用 SingleStream 替换 Server 场景

数据集、准确率指标与任务选择

参考实现

相关测评

MLC MLPerf Client v0.6基准测试结果发布

MLC NASSCOM 加入 MLCommons 联盟，推动印度 AI 基准发展

MLC MLPerf Training v5.0基准测试结果发布

MLC 2025 MLC 新星榜单揭晓