GPT-OSS 120B - AI测评

MLPerf Inference v6.0 新增 GPT-OSS 120B 基准与 DeepSeek-R1 低延迟交互优化

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型（LLM）的覆盖。随着行业转向更专业化开源模型，基准测试需适应部署策略与架构变化。本轮引入两大亮点：GPT-OSS 120B 新基准，基于117B参数MoE架构，擅长数学、科学推理与编码；DeepSeek-R1 交互场景，针对实时推理应用，首次标准化 speculative decoding。GPT-OSS 分离性能与准确数据集，准确模式覆盖 AIME 2024（82.92%）、GPQA-Diamond（74.95%）、LiveCodeBench v6（84.68%）；性能模式聚焦 PubMed 摘要生成。DeepSeek-R1 交互场景 TTFT ≤1.5s、TPOT ≤15ms，支持 EAGLE-style decoding。参考实现已在 GitHub 提供。（128字）