推理基准 (共3篇)

MLCommons Whisper 推理基准 v5.1 发布

MLCommons 发布了 Whisper Inference v5.1 基准,针对 OpenAI Whisper 系列模型的语音转文本(STT)推理性能进行全面评估。新版本新增 large-v3 模型支持,优化了评估数据集和流程,主要指标包括 RTF(实时因子)和 WER(词错误率)。测试覆盖 CPU(Intel、AMD、Apple Silicon)和 GPU(NVIDIA、AMD)等多种硬件平台。结果显示,NVIDIA H100 GPU 在 RTF 上领先,能效比 RTF@WER20% 达 0.01 以下;Apple M3 在移动端表现出色。基准强调标准化测试,推动 STT 技术进步。完整排行榜详见 MLCommons 官网。(128 字)

MLC Whisper MLCommons
624

MLCommons 小型LLM推理基准5.1发布

MLCommons近日发布了Small LLM Inference基准5.1版本,这是针对1-3B参数小型语言模型推理性能的标准化测试框架。此次更新引入了更多模型和硬件提交,涵盖了Llama 3.2 1B、Phi-3.5-mini等热门SLM。基准测试包括预填充和解码阶段的端到端延迟、吞吐量等指标,在A100、H100等GPU及边缘设备上运行。结果显示,NVIDIA H200在closed轨道中领先,吞吐量提升显著;AMD MI300X紧随其后。开源轨道中,SGLang框架优化突出。该基准推动SLM在边缘部署和高效推理的应用落地。(128字)

MLC MLCommons 小型LLM
562

MLPerf Inference v5.1 基准测试结果发布

MLCommons 近日发布了 MLPerf Inference v5.1 基准测试结果,这是生成式 AI 时代推理性能评估的最新标准。新一轮测试引入 Llama 3.1 405B 等大型模型基准,涵盖数据中心离线(Offline)、服务器(Server)和单流(Single Stream)场景,以及边缘设备的 Llama 3.2 1B/3B 测试。NVIDIA H100/H200 GPU 在多个类别中刷新性能记录,AMD MI300X 和 Intel Gaudi3 等系统也表现出色。本次结果突显了高吞吐量和低延迟的重要性,推动硬件厂商优化 AI 推理效率,助力行业标准化发展。(128字)