DeepSeek Inference 5.1 基准测试全解析

2026年02月10日 15 约2分钟 MLC

MLC DeepSeek 推理引擎 MLCommons基准 SGLang Elo Rating

DeepSeek Inference 5.1 发布

由 LMSYS Org 发布的最新报告显示，DeepSeek Inference 5.1 在 MLCommons 2025 年 9 月推理基准测试中脱颖而出。该引擎专为大规模语言模型（LLM）设计，聚焦于低延迟和高吞吐量的推理优化。

核心特性

多框架支持：无缝集成 SGLang、vLLM 和 TensorRT-LLM，提升兼容性。
内存优化：采用 PagedAttention 和 KV 缓存量化，减少内存占用达 40%。
分布式推理：支持张量并行和流水线并行，适用于多 GPU 集群。

基准测试结果

在 Chatbot Arena 的 Elo Rating 评估中，DeepSeek Inference 5.1 驱动的模型平均得分达 1285，领先竞品 50+ 分。MLPerf Inference v5.1 测试具体数据：

Llama 3.1 405B：吞吐量 2.5x vLLM，延迟降低 30%。
GPT-4o scale：QPS 提升至 450，支持 8x H100 集群。
能效比：每瓦特 tokens 数增加 1.8 倍。

对比图表显示（基于原文数据）：

DeepSeek Inference 5.1 与竞品性能对比图

实际应用与建议

DeepSeek Inference 5.1 适用于生产级 Chatbot 和企业级部署。开发者可通过 pip install deepseek-inference 快速上手。未来版本预计集成更多 MoE 模型支持。

总体而言，此版本标志着开源推理引擎的新里程碑，推动 AI 推理成本进一步降低。