DeepSeek - AI测评 | 赢政天下

SGLang 中的 Elastic EP：DeepSeek MoE 部署的部分故障容忍

为高效服务大规模 Mixture-of-Experts (MoE) 模型，宽 Expert Parallelism (EP) 策略已成为必需，但其可靠性瓶颈突出：单一硬件故障可能导致整个实例崩溃，重启需数分钟。为此，SGLang 集成 Elastic EP，通过解耦专家与 GPU 的刚性绑定、维护冗余专家，实现故障检测后秒级重分布专家权重，服务中断不超过10秒，较传统重启减少90%。性能测试显示，Elastic EP 与标准 DeepEP 相当，无静态性能损失。Mooncake EP 作为容错通信后端，提供高性能 RDMA 和快速故障检测。启用只需简单参数配置，提升 MoE 推理弹性。（128字）

Winzheng Index

11个AI模型集体暴涨40分：编程测试到底发生了什么？

本周AI模型评测出现罕见异象：11个主流模型的编程得分集体暴涨29-47分，唯独GPT-o3长文本能力暴跌33.5分。这背后是测试标准调整还是模型真实进化？数据揭示了三个关键信号。

Winzheng Index

11个AI答同一道题，6个连星期都算错了

一道简单的时区计算题暴露AI致命弱点：11个主流模型中6个答错，包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五，而所有模型都没意识到3月15日恰好是夏令时临界点。

Winzheng Index

11个AI做同一道逻辑题，3个答错暴露推理黑洞

一道简单的排序逻辑题让11个顶尖AI模型现出原形：DeepSeek V3和R1双双翻车，Grok更是离谱到让人怀疑它在摸鱼。8个模型答对，3个彻底答错，错误率27%暴露了当前AI的推理软肋。

Winzheng Index

11个AI答同一道题，10个在装傻：豆包凭什么拿满分？

一道简单的服务器内存核查题，11个主流AI模型中10个给出了敷衍答案，只有豆包Pro展现出真正的工程思维。这背后暴露的不是技术问题，而是AI模型在实际工作场景中的思维深度差异。

Winzheng Index

11个AI答同一道题，7个不及格：谁在装聪明？

一道简单的数据泄露应急题，11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分，而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题？

LMSYS

GB300 NVL72部署DeepSeek：长上下文推理大幅提升

Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展，采用prefill–decode disaggregation (PD)、chunked pipeline parallelism (PP)、wide expert parallelism (Wide-EP)、multi-token prediction (MTP)等技术。在长上下文负载下，SGLang在GB300 NVL72上实现最高226 TPS/GPU（较GB200提升1.53X），MTP进一步提升用户吞吐量1.87X。与GB200同等延迟条件下，GB300 TPS/GPU提升1.4X–1.6X。亮点包括EP解码扩展、PP预填充优化及更快注意力内核。复现指南见GitHub issue:18703。（128字）

winzheng Research Lab

深度解析：从 DeepSeek 到 Gemini，如何构建防御“模型蒸馏”的铜墙铁壁？

谷歌Gemini遭模型蒸馏攻击曝光后，winzheng Research Lab最新报告剖析DeepSeek事件，揭示攻击链条全貌。从API异常调用到混合训练路径，事件铁证如山。报告提出API智能风控、输出水印及模型对抗训练的纵深防御体系，并给出企业三步走实施指南。面对低成本克隆威胁，AI企业如何守住护城河？本文深度解析反蒸馏策略，助你构建铜墙铁壁。（128字）

MLC

DeepSeek Inference 5.1 基准测试全解析

DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎，在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化，支持 SGLang 等框架，显著提升了吞吐量和延迟性能。测试数据显示，在 Llama 3.1 405B 等模型上，DeepSeek Inference 5.1 的性能超越了 vLLM 和 TensorRT-LLM 等竞品，Elo Rating 排名前列。文章详解其关键特性、基准结果及实际部署建议，助力开发者选择最佳推理方案。（128字）

LMSYS

GB200 NVL72部署DeepSeek优化（二）：预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一，本文分享SGLang团队在上篇博客基础上，对DeepSeek V3/R1推理性能的进一步优化，包括FP8 attention、NVFP4 MoE、大规模专家并行（EP）、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下，SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s（2000 token输入），较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE，也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等，精度损失微乎其微。实验验证了端到端性能大幅提升，并分析了内核级加速效果。（128字）