Text-to-Video - AI资讯

将 Text-to-Video 引入 MLPerf Inference v6.0

MLPerf Inference v6.0 基准套件首次引入文本到视频（Text-to-Video）任务，标志着视频生成模型从实验性工具向专业工作流的核心转型。任务组选用阿里巴巴开源的 Wan2.2-T2V-A14B-Diffusers 模型，该模型采用独特的专家混合架构，通过高噪声和低噪声专家顺序激活生成高质量视频。基准限制视频时长为5秒、720p分辨率、16fps，数据集基于 VBench 精简至248样本，使用 SingleStream 场景测量延迟。VBench 提供16维质量评估，精选6关键指标确保准确性和公平性。参考实现基于 Hugging Face Diffusers，在 BF16 精度下准确率达70.48。该基准为消费者决策和厂商优化提供标准化参考。

Text-to-Video (共1篇)

将 Text-to-Video 引入 MLPerf Inference v6.0