MLCommons Whisper 推理基准 v5.1 发布

MLCommons 组织于 2025 年 9 月发布了 Whisper Inference v5.1 基准,这是对 OpenAI Whisper 语音转文本模型推理性能的最新标准化评估。该基准旨在为行业提供公平、可比的性能数据,帮助开发者优化部署。

主要更新与模型支持

v5.1 版本引入了 Whisper large-v3 模型,同时保留 tiny、base、small、medium、large-v1 和 large-v2 等变体。数据集扩展至 Multilingual LibriSpeech,包含英文和多语言音频,总时长超过 1000 小时。

关键指标

  • RTF (Real-Time Factor):推理时间与音频时长的比值,越低越好。
  • WER (Word Error Rate):词错误率,衡量准确性。
  • 主要分数:RTF @ target WER(如 RTF@WER20%),平衡速度与精度。
  • 能效指标:RTF × 功耗(Watts)。

测试硬件与框架

支持 CPU(x86、ARM,如 Intel Xeon、AMD EPYC、Apple M 系列)、GPU(NVIDIA A100/H100、AMD MI300X、Intel Gaudi)和边缘设备。框架包括 ONNX Runtime、TensorRT、SGLang 等。

顶级性能结果

服务器端 Top 提交:

硬件模型RTF@WER20%提交者
NVIDIA H100 SXMlarge-v30.008NVIDIA
AMD MI300Xlarge-v30.012AMD
Intel Xeon 6medium0.15Intel

边缘端亮点:Apple M3 Max 在 RTF@WER20% 上达 0.05,能效最佳。

排行榜与提交指南

完整结果访问 MLCommons 官网。开发者可通过 MLPerf Inference v5.1 规则提交,强调端到端性能,包括预处理和后处理。

此基准凸显 GPU 在高精度 STT 任务中的优势,同时推动低功耗优化,助力 AI 语音应用落地。

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!