MLCommons Whisper 推理基准 v5.1 发布

Feb 10, 2026 668 Views - Read Source MLC

MLC Whisper MLCommons 推理基准语音识别 WER

MLCommons 组织于 2025 年 9 月发布了 Whisper Inference v5.1 基准，这是对 OpenAI Whisper 语音转文本模型推理性能的最新标准化评估。该基准旨在为行业提供公平、可比的性能数据，帮助开发者优化部署。

主要更新与模型支持

v5.1 版本引入了 Whisper large-v3 模型，同时保留 tiny、base、small、medium、large-v1 和 large-v2 等变体。数据集扩展至 Multilingual LibriSpeech，包含英文和多语言音频，总时长超过 1000 小时。

支持 CPU（x86、ARM，如 Intel Xeon、AMD EPYC、Apple M 系列）、GPU（NVIDIA A100/H100、AMD MI300X、Intel Gaudi）和边缘设备。框架包括 ONNX Runtime、TensorRT、SGLang 等。

服务器端 Top 提交：

硬件	模型	RTF@WER20%	提交者
NVIDIA H100 SXM	large-v3	0.008	NVIDIA
AMD MI300X	large-v3	0.012	AMD
Intel Xeon 6	medium	0.15	Intel

边缘端亮点：Apple M3 Max 在 RTF@WER20% 上达 0.05，能效最佳。

完整结果访问 MLCommons 官网。开发者可通过 MLPerf Inference v5.1 规则提交，强调端到端性能，包括预处理和后处理。

此基准凸显 GPU 在高精度 STT 任务中的优势，同时推动低功耗优化，助力 AI 语音应用落地。