MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化
MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型(LLM)的覆盖。随着行业转向更专业化开源模型,基准测试需适应部署策略与架构变化。本轮引入两大亮点:GPT-OSS 120B 新基准,基于117B参数MoE架构,擅长数学、科学推理与编码;DeepSeek-R1 交互场景,针对实时推理应用,首次标准化 speculative decoding。GPT-OSS 分离性能与准确数据集,准确模式覆盖 AIME 2024(82.92%)、GPQA-Diamond(74.95%)、LiveCodeBench v6(84.68%);性能模式聚焦 PubMed 摘要生成。DeepSeek-R1 交互场景 TTFT ≤1.5s、TPOT ≤15ms,支持 EAGLE-style decoding。参考实现已在 GitHub 提供。(128字)