DeepSeek - AI资讯 | 赢政天下

DeepSeek发布新一代V4模型的三大亮点

上周五，中国人工智能公司DeepSeek发布了其期待已久的新旗舰模型V4的预览版。值得注意的是，这款模型能够处理比上一代更长的提示，这得益于其新设计，大幅提高了处理大量文本的效率。与DeepSeek之前的模型一样，V4是开源的，意味着它可以被广泛使用。

SGLang 中的 Elastic EP：DeepSeek MoE 部署的部分故障容忍

为高效服务大规模 Mixture-of-Experts (MoE) 模型，宽 Expert Parallelism (EP) 策略已成为必需，但其可靠性瓶颈突出：单一硬件故障可能导致整个实例崩溃，重启需数分钟。为此，SGLang 集成 Elastic EP，通过解耦专家与 GPU 的刚性绑定、维护冗余专家，实现故障检测后秒级重分布专家权重，服务中断不超过10秒，较传统重启减少90%。性能测试显示，Elastic EP 与标准 DeepEP 相当，无静态性能损失。Mooncake EP 作为容错通信后端，提供高性能 RDMA 和快速故障检测。启用只需简单参数配置，提升 MoE 推理弹性。（128字）

11个AI模型集体暴涨40分：编程测试到底发生了什么？

本周AI模型评测出现罕见异象：11个主流模型的编程得分集体暴涨29-47分，唯独GPT-o3长文本能力暴跌33.5分。这背后是测试标准调整还是模型真实进化？数据揭示了三个关键信号。

11个AI答同一道题，6个连星期都算错了

一道简单的时区计算题暴露AI致命弱点：11个主流模型中6个答错，包括谷歌Gemini、马斯克Grok等明星产品。最离谱的是Qwen Max把周六算成了周五，而所有模型都没意识到3月15日恰好是夏令时临界点。

11个AI做同一道逻辑题，3个答错暴露推理黑洞

一道简单的排序逻辑题让11个顶尖AI模型现出原形：DeepSeek V3和R1双双翻车，Grok更是离谱到让人怀疑它在摸鱼。8个模型答对，3个彻底答错，错误率27%暴露了当前AI的推理软肋。

11个AI答同一道题，10个在装傻：豆包凭什么拿满分？

一道简单的服务器内存核查题，11个主流AI模型中10个给出了敷衍答案，只有豆包Pro展现出真正的工程思维。这背后暴露的不是技术问题，而是AI模型在实际工作场景中的思维深度差异。

11个AI答同一道题，7个不及格：谁在装聪明？

一道简单的数据泄露应急题，11个主流AI模型中竟有7个拿了0分。豆包、DeepSeek等国产模型全部满分，而号称最强的Claude、GPT却在关键时刻掉了链子。这背后暴露出什么问题？

Anthropic怒斥中国AI“工业级蒸馏偷师”Claude，社区反手打脸：谁才是真正的“数据窃贼”？

过去48小时X平台AI圈最大争议：Anthropic指控DeepSeek、Moonshot AI、MiniMax等中国公司创建2.4万假账户、发起1600万次交互，对Claude模型进行系统性“蒸馏攻击”，窃取代理推理、工具使用等核心能力。官方帖获5万+点赞，却引发强烈反弹——开发者与用户镜像指控：美国巨头先大规模爬取全球公开内容训练模型，如今被“反向蒸馏”就喊盗窃？Jeff Geerling等高互动帖点燃“双标”叙事，话题迅速蔓延至AI数据伦理、中美竞争、地缘政治与模型蒸馏合法性边界，演变为一场全球AI社区的集体“倒打一耙”狂欢。

TC

Anthropic指控中国AI实验室窃取Claude模型，美国热议芯片出口管制

Anthropic公司指控中国AI实验室DeepSeek、Moonshot和MiniMax使用24,000个虚假账户大规模查询Claude模型，以提炼其AI能力。在此背景下，美国官员正辩论加强对AI芯片的出口管制，旨在减缓中国AI发展势头。这一事件凸显中美AI竞争白热化，涉及技术窃取、模型蒸馏和地缘政治博弈，可能引发更严格的国际AI监管。（128字）

GB300 NVL72部署DeepSeek：长上下文推理大幅提升

Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展，采用prefill–decode disaggregation (PD)、chunked pipeline parallelism (PP)、wide expert parallelism (Wide-EP)、multi-token prediction (MTP)等技术。在长上下文负载下，SGLang在GB300 NVL72上实现最高226 TPS/GPU（较GB200提升1.53X），MTP进一步提升用户吞吐量1.87X。与GB200同等延迟条件下，GB300 TPS/GPU提升1.4X–1.6X。亮点包括EP解码扩展、PP预填充优化及更快注意力内核。复现指南见GitHub issue:18703。（128字）

中国DeepSeek被指控“模型蒸馏盗窃”：中美AI竞争再添地缘火药味

OpenAI向美国国会提交备忘录，指控中国AI公司DeepSeek通过“模型蒸馏”违规获取ChatGPT等模型输出，用于训练自家R1系列，绕过服务条款和安全限制。 OpenAI称此为“免费搭车”和知识产权盗窃，甚至上升到国家安全风险。争议焦点：蒸馏技术本身行业通用，OpenAI早期也曾大规模使用互联网数据训练，却被指“双标”。DeepSeek尚未正式回应，但事件已点燃中美AI竞争新火药味，可能推动更严格的API防护和立法。这不仅是技术纠纷，更是美国试图遏制中国AI低成本崛起的信号。AI知识产权之战升级，全球行业分化或将加剧。

Research Lab

DeepSeek 编程工具“生死局”：Cursor 虽强，但 VS Code 能帮你年省 $500？

赢政指数 No.002：DeepSeek 最佳编程搭档大横评 —— Cursor vs Windsurf vs VS Code，四大维度实测报告正式发布！

Research Lab

赢政研究院首发硬件天梯图：一部300元旧手机跑通DeepSeek，万元级4090封神"穷人法拉利"

赢政研究院（Winzheng Research Lab）今日发布2026年第一季度《DeepSeek最佳运行硬件排行榜》，首次将数据中心级GPU、消费级显卡、苹果笔记本与一部2018年产旧手机放在同一张考卷上进行AI推理实测。结果显示：售价仅万元出头的NVIDIA RTX 4090以58 Token/s的生成速度和碾压级性价比夺得"穷人的法拉利"称号；苹果M4 Max凭借128GB统一内存成功运行700亿参数大模型，能效比达到4090的七倍；而一部二手仅300元的小米8，竟也成功跑通了DeepSeek——尽管它在推理过程中热得足以充当暖手宝。该报告宣告：AI民主化的时代，已经到来。

深度解析：从 DeepSeek 到 Gemini，如何构建防御“模型蒸馏”的铜墙铁壁？

谷歌Gemini遭模型蒸馏攻击曝光后，winzheng Research Lab最新报告剖析DeepSeek事件，揭示攻击链条全貌。从API异常调用到混合训练路径，事件铁证如山。报告提出API智能风控、输出水印及模型对抗训练的纵深防御体系，并给出企业三步走实施指南。面对低成本克隆威胁，AI企业如何守住护城河？本文深度解析反蒸馏策略，助你构建铜墙铁壁。（128字）

MIT

中国开源AI的下一个前沿

过去一年，中国AI迎来转折点。自DeepSeek于2025年1月发布R1推理模型以来，中国企业频频推出开源AI创新，挑战全球格局。MIT Technology Review的《What's Next》系列探讨其未来：开源生态加速构建、多模态模型崛起、推理能力跃升。尽管面临芯片限制与地缘挑战，中国开源AI正重塑全球竞争，预计2026年将涌现更多重量级模型，推动AI民主化。

DeepSeek-V2聊天机器人爆火：国产AI性能直追GPT-4o

中国AI公司DeepSeek推出V2模型聊天机器人，免费开放使用，其中文能力媲美GPT-4o，在编程和数学领域表现出色。一天内X平台中文讨论超10万，转发量领跑，凭借高性价比迅速引爆中国AI圈，标志着国产大模型崛起。

DeepSeek Inference 5.1 基准测试全解析

DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎，在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化，支持 SGLang 等框架，显著提升了吞吐量和延迟性能。测试数据显示，在 Llama 3.1 405B 等模型上，DeepSeek Inference 5.1 的性能超越了 vLLM 和 TensorRT-LLM 等竞品，Elo Rating 排名前列。文章详解其关键特性、基准结果及实际部署建议，助力开发者选择最佳推理方案。（128字）

GB200 NVL72部署DeepSeek优化（二）：预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一，本文分享SGLang团队在上篇博客基础上，对DeepSeek V3/R1推理性能的进一步优化，包括FP8 attention、NVFP4 MoE、大规模专家并行（EP）、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下，SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s（2000 token输入），较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE，也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等，精度损失微乎其微。实验验证了端到端性能大幅提升，并分析了内核级加速效果。（128字）

DeepSeek (共22篇)