DeepSeek Inference 5.1 发布
由 LMSYS Org 发布的最新报告显示,DeepSeek Inference 5.1 在 MLCommons 2025 年 9 月推理基准测试中脱颖而出。该引擎专为大规模语言模型(LLM)设计,聚焦于低延迟和高吞吐量的推理优化。
核心特性
- 多框架支持:无缝集成 SGLang、vLLM 和 TensorRT-LLM,提升兼容性。
- 内存优化:采用 PagedAttention 和 KV 缓存量化,减少内存占用达 40%。
- 分布式推理:支持张量并行和流水线并行,适用于多 GPU 集群。
基准测试结果
在 Chatbot Arena 的 Elo Rating 评估中,DeepSeek Inference 5.1 驱动的模型平均得分达 1285,领先竞品 50+ 分。MLPerf Inference v5.1 测试具体数据:
- Llama 3.1 405B:吞吐量 2.5x vLLM,延迟降低 30%。
- GPT-4o scale:QPS 提升至 450,支持 8x H100 集群。
- 能效比:每瓦特 tokens 数增加 1.8 倍。
对比图表显示(基于原文数据):

实际应用与建议
DeepSeek Inference 5.1 适用于生产级 Chatbot 和企业级部署。开发者可通过 pip install deepseek-inference 快速上手。未来版本预计集成更多 MoE 模型支持。
总体而言,此版本标志着开源推理引擎的新里程碑,推动 AI 推理成本进一步降低。