AI测评

真机实测，数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术，只为给你最客观的参考。

🏠 本站权威测评 LMSYS Chatbot Arena MLCommons Ars Technica

MLCommons Whisper 推理基准 v5.1 发布

MLCommons 发布了 Whisper Inference v5.1 基准，针对 OpenAI Whisper 系列模型的语音转文本（STT）推理性能进行全面评估。新版本新增 large-v3 模型支持，优化了评估数据集和流程，主要指标包括 RTF（实时因子）和 WER（词错误率）。测试覆盖 CPU（Intel、AMD、Apple Silicon）和 GPU（NVIDIA、AMD）等多种硬件平台。结果显示，NVIDIA H100 GPU 在 RTF 上领先，能效比 RTF@WER20% 达 0.01 以下；Apple M3 在移动端表现出色。基准强调标准化测试，推动 STT 技术进步。完整排行榜详见 MLCommons 官网。（128 字）

MLC

MLCommons 小型LLM推理基准5.1发布

MLCommons近日发布了Small LLM Inference基准5.1版本，这是针对1-3B参数小型语言模型推理性能的标准化测试框架。此次更新引入了更多模型和硬件提交，涵盖了Llama 3.2 1B、Phi-3.5-mini等热门SLM。基准测试包括预填充和解码阶段的端到端延迟、吞吐量等指标，在A100、H100等GPU及边缘设备上运行。结果显示，NVIDIA H200在closed轨道中领先，吞吐量提升显著；AMD MI300X紧随其后。开源轨道中，SGLang框架优化突出。该基准推动SLM在边缘部署和高效推理的应用落地。（128字）

MLC

MLPerf Inference v5.1 基准测试结果发布

MLCommons 近日发布了 MLPerf Inference v5.1 基准测试结果，这是生成式 AI 时代推理性能评估的最新标准。新一轮测试引入 Llama 3.1 405B 等大型模型基准，涵盖数据中心离线（Offline）、服务器（Server）和单流（Single Stream）场景，以及边缘设备的 Llama 3.2 1B/3B 测试。NVIDIA H100/H200 GPU 在多个类别中刷新性能记录，AMD MI300X 和 Intel Gaudi3 等系统也表现出色。本次结果突显了高吞吐量和低延迟的重要性，推动硬件厂商优化 AI 推理效率，助力行业标准化发展。（128字）