MLCommons 组织于 2025 年 9 月发布了 Whisper Inference v5.1 基准,这是对 OpenAI Whisper 语音转文本模型推理性能的最新标准化评估。该基准旨在为行业提供公平、可比的性能数据,帮助开发者优化部署。
主要更新与模型支持
v5.1 版本引入了 Whisper large-v3 模型,同时保留 tiny、base、small、medium、large-v1 和 large-v2 等变体。数据集扩展至 Multilingual LibriSpeech,包含英文和多语言音频,总时长超过 1000 小时。
关键指标
- RTF (Real-Time Factor):推理时间与音频时长的比值,越低越好。
- WER (Word Error Rate):词错误率,衡量准确性。
- 主要分数:RTF @ target WER(如 RTF@WER20%),平衡速度与精度。
- 能效指标:RTF × 功耗(Watts)。
测试硬件与框架
支持 CPU(x86、ARM,如 Intel Xeon、AMD EPYC、Apple M 系列)、GPU(NVIDIA A100/H100、AMD MI300X、Intel Gaudi)和边缘设备。框架包括 ONNX Runtime、TensorRT、SGLang 等。
顶级性能结果
服务器端 Top 提交:
| 硬件 | 模型 | RTF@WER20% | 提交者 |
|---|---|---|---|
| NVIDIA H100 SXM | large-v3 | 0.008 | NVIDIA |
| AMD MI300X | large-v3 | 0.012 | AMD |
| Intel Xeon 6 | medium | 0.15 | Intel |
边缘端亮点:Apple M3 Max 在 RTF@WER20% 上达 0.05,能效最佳。
排行榜与提交指南
完整结果访问 MLCommons 官网。开发者可通过 MLPerf Inference v5.1 规则提交,强调端到端性能,包括预处理和后处理。
此基准凸显 GPU 在高精度 STT 任务中的优势,同时推动低功耗优化,助力 AI 语音应用落地。