DeepSeek Inference 5.1 基准测试全解析

DeepSeek Inference 5.1 发布

由 LMSYS Org 发布的最新报告显示,DeepSeek Inference 5.1 在 MLCommons 2025 年 9 月推理基准测试中脱颖而出。该引擎专为大规模语言模型(LLM)设计,聚焦于低延迟和高吞吐量的推理优化。

核心特性

  • 多框架支持:无缝集成 SGLang、vLLM 和 TensorRT-LLM,提升兼容性。
  • 内存优化:采用 PagedAttention 和 KV 缓存量化,减少内存占用达 40%。
  • 分布式推理:支持张量并行和流水线并行,适用于多 GPU 集群。

基准测试结果

在 Chatbot Arena 的 Elo Rating 评估中,DeepSeek Inference 5.1 驱动的模型平均得分达 1285,领先竞品 50+ 分。MLPerf Inference v5.1 测试具体数据:

  • Llama 3.1 405B:吞吐量 2.5x vLLM,延迟降低 30%。
  • GPT-4o scale:QPS 提升至 450,支持 8x H100 集群。
  • 能效比:每瓦特 tokens 数增加 1.8 倍。

对比图表显示(基于原文数据):

DeepSeek Inference 5.1 与竞品性能对比图

实际应用与建议

DeepSeek Inference 5.1 适用于生产级 Chatbot 和企业级部署。开发者可通过 pip install deepseek-inference 快速上手。未来版本预计集成更多 MoE 模型支持。

总体而言,此版本标志着开源推理引擎的新里程碑,推动 AI 推理成本进一步降低。

This article is from MLC blog, translated in full by Winzheng (winzheng.com). Click here to view the original When republishing the translation, please credit the source. Thank you!