MLCommons Whisper 推理基准 v5.1 发布

MLCommons 发布了 Whisper Inference v5.1 基准,针对 OpenAI Whisper 系列模型的语音转文本(STT)推理性能进行全面评估。新版本新增 large-v3 模型支持,优化了评估数据集和流程,主要指标包括 RTF(实时因子)和 WER(词错误率)。测试覆盖 CPU(Intel、AMD、Apple Silicon)和 GPU(NVIDIA、AMD)等多种硬件平台。结果显示,NVIDIA H100 GPU 在 RTF 上领先,能效比 RTF@WER20% 达 0.01 以下;Apple M3 在移动端表现出色。基准强调标准化测试,推动 STT 技术进步。完整排行榜详见 MLCommons 官网。(128 字)

MLCommons 组织于 2025 年 9 月发布了 Whisper Inference v5.1 基准,这是对 OpenAI Whisper 语音转文本模型推理性能的最新标准化评估。该基准旨在为行业提供公平、可比的性能数据,帮助开发者优化部署。

主要更新与模型支持

v5.1 版本引入了 Whisper large-v3 模型,同时保留 tiny、base、small、medium、large-v1 和 large-v2 等变体。数据集扩展至 Multilingual LibriSpeech,包含英文和多语言音频,总时长超过 1000 小时。

关键指标

  • RTF (Real-Time Factor):推理时间与音频时长的比值,越低越好。
  • WER (Word Error Rate):词错误率,衡量准确性。
  • 主要分数:RTF @ target WER(如 RTF@WER20%),平衡速度与精度。
  • 能效指标:RTF × 功耗(Watts)。

测试硬件与框架

支持 CPU(x86、ARM,如 Intel Xeon、AMD EPYC、Apple M 系列)、GPU(NVIDIA A100/H100、AMD MI300X、Intel Gaudi)和边缘设备。框架包括 ONNX Runtime、TensorRT、SGLang 等。

顶级性能结果

服务器端 Top 提交:

硬件模型RTF@WER20%提交者
NVIDIA H100 SXMlarge-v30.008NVIDIA
AMD MI300Xlarge-v30.012AMD
Intel Xeon 6medium0.15Intel

边缘端亮点:Apple M3 Max 在 RTF@WER20% 上达 0.05,能效最佳。

排行榜与提交指南

完整结果访问 MLCommons 官网。开发者可通过 MLPerf Inference v5.1 规则提交,强调端到端性能,包括预处理和后处理。

此基准凸显 GPU 在高精度 STT 任务中的优势,同时推动低功耗优化,助力 AI 语音应用落地。