引言
MLCommonsⓇ MLPerfⓇ Inference 基准套件是衡量机器学习(ML)和人工智能(AI)工作负载性能的行业标准,涵盖视觉、语音和自然语言处理等领域。该套件精选代表行业前沿的负载,不仅为消费者提供部署和预算决策的关键信息,还帮助厂商在实际约束下优化工作负载。
过去一年,视频生成模型如 OpenAI Sora2 迅猛发展,从业余生成奇异视频转向专业创意工作流的核心工具。为此,MLPerf Text-to-Video 任务组成立,将专用视频生成基准纳入 MLPerf 套件。
模型选择
基准选用阿里巴巴于2025年7月发布的 Wan2.2-T2V-A14B-Diffusers 模型,当时它是 Text-to-Video 排行榜上最佳开源权重模型之一。该模型采用 Apache 2.0 许可 完全开源,可通过 Huggingface Diffusers 运行。
Wan2.2 模型由三部分管道组成:
- Google 的 UMT5 XXL 文本编码器,用于编码提示。
- Wan2.2 A14B 扩散 Transformer,用于生成视频潜在表示。
- Wan2.2 VAE 解码器,用于将潜在视频解码为帧序列。
Wan2.2-T2V-A14B-Diffusers 的关键特性是专家混合(MoE)架构,但不同于标准 MoE 无门控网络,而是顺序激活两个专家:早期去噪阶段使用“高噪声专家”,后期切换至“低噪声专家”。
有趣的是,大多数视频生成模型不逐帧生成,而是同时去噪整个视频潜在表示。例如,Wan2.2 的潜在表示覆盖 32×32 像素的 4 帧。生成 5 秒 720p 16fps 视频需序列长度达 19,320,导致计算密集型负载。
性能指标
设计基准时,最大挑战是选择性能指标。文本到视频任务计算昂贵,单查询往往需数分钟。
为确保可行性和前沿性,我们限制如下:
本文由 赢政天下编译整理,更多海外AI资讯,尽在 赢政天下。
- 配置:视频时长 5 秒,分辨率固定 720p,即生成 81 帧 720×1280 图像(16fps)。
- 运行时目标:性能模式数据集缩减至 100/248 样本(准确模式保留 248)。
用 SingleStream 替换 Server 场景
基准重大变革是将 Server 场景替换为 SingleStream 以测量延迟。单视频生成需大量计算,常耗时数分钟。
Server 场景假设近实时处理,但实际会导致系统过载,大部分请求等待时间过长,无法准确反映硬件性能。因此,采用 SingleStream,仅测量处理时间,忽略等待时间。
数据集、准确率指标与任务选择
我们选用 VBench 作为官方数据集和准确率框架,经比较分析优先考虑许可、鲁棒性和易用性。
初始评估包括 OpenVid-1M、VidGen-1M、WebVid-10M 和 ActivityNet。首要过滤商业可用性:
- VidGen-1M 和 WebVid-10M 因非商业许可被淘汰。
- OpenVid-1M 许可合适(CC BY 4.0),但仅数据集无评估框架。
VBench 脱颖而出,提供完整解决方案:多样提示集 + 预验证评分套件,包括 16 维质量指标如 Subject Consistency、Motion Smoothness 和 Aesthetic Quality;约 950 个标准化提示;确定性(固定种子下跨硬件稳定,如 NVIDIA、AMD);广泛采用(如 Wan 模型报告)。
VBench 默认配置耗时超 80 小时,为匹配 MLPerf,我们调整:
- 数据集子集:聚焦 6 关键指标:Subject Consistency、Background Consistency、Motion Smoothness、Dynamic Degree、Appearance Style、Scene,确保区分度高,去除冗余。
- 缩减规模:至 248 样本,平衡准确验证与运行时。
VBench 是唯一商业可行、合法清关且方法完整的框架,可适配 MLPerf 约束。
参考实现
为确保公平可复现,参考实现基于标准化开源基础:
- 模型架构: Wan2.2-T2V-A14B-Diffusers(Wan-AI 托管),14B 参数扩散 Transformer。
- 精度与计算: BF16 (BFloat16) 精度。
- 参考准确率: 70.48(VBench)。
- 最低阈值: 69.77(参考 99%)。
- 生成管道: 基于 Hugging Face Diffusers。
- 输入: 文本提示 + 固定潜在张量(确保确定性)。
- 调度器: UniPCMultistepScheduler(Wan2.2 默认)。
© 2026 Winzheng.com 赢政天下 | 本文由赢政天下编译整理,转载请注明来源。原文版权归原作者所有。