DeepSeek (共16篇)

Anthropic怒斥中国AI“工业级蒸馏偷师”Claude,社区反手打脸:谁才是真正的“数据窃贼”?

过去48小时X平台AI圈最大争议:Anthropic指控DeepSeek、Moonshot AI、MiniMax等中国公司创建2.4万假账户、发起1600万次交互,对Claude模型进行系统性“蒸馏攻击”,窃取代理推理、工具使用等核心能力。官方帖获5万+点赞,却引发强烈反弹——开发者与用户镜像指控:美国巨头先大规模爬取全球公开内容训练模型,如今被“反向蒸馏”就喊盗窃?Jeff Geerling等高互动帖点燃“双标”叙事,话题迅速蔓延至AI数据伦理、中美竞争、地缘政治与模型蒸馏合法性边界,演变为一场全球AI社区的集体“倒打一耙”狂欢。

Anthropic Claude DeepSeek
377
TC

Anthropic指控中国AI实验室窃取Claude模型,美国热议芯片出口管制

Anthropic公司指控中国AI实验室DeepSeek、Moonshot和MiniMax使用24,000个虚假账户大规模查询Claude模型,以提炼其AI能力。在此背景下,美国官员正辩论加强对AI芯片的出口管制,旨在减缓中国AI发展势头。这一事件凸显中美AI竞争白热化,涉及技术窃取、模型蒸馏和地缘政治博弈,可能引发更严格的国际AI监管。(128字)

Anthropic Claude DeepSeek
326

GB300 NVL72部署DeepSeek:长上下文推理大幅提升

Blackwell家族最新成员GB300 NVL72成为长上下文LLM推理最强平台。本文分享优化DeepSeek R1-NVFP4在128K/8K ISL/OSL长上下文服务上的最新进展,采用prefill–decode disaggregation (PD)、chunked pipeline parallelism (PP)、wide expert parallelism (Wide-EP)、multi-token prediction (MTP)等技术。在长上下文负载下,SGLang在GB300 NVL72上实现最高226 TPS/GPU(较GB200提升1.53X),MTP进一步提升用户吞吐量1.87X。与GB200同等延迟条件下,GB300 TPS/GPU提升1.4X–1.6X。亮点包括EP解码扩展、PP预填充优化及更快注意力内核。复现指南见GitHub issue:18703。(128字)

LMSYS GB300 NVL72 DeepSeek
386

中国DeepSeek被指控“模型蒸馏盗窃”:中美AI竞争再添地缘火药味

OpenAI向美国国会提交备忘录,指控中国AI公司DeepSeek通过“模型蒸馏”违规获取ChatGPT等模型输出,用于训练自家R1系列,绕过服务条款和安全限制。 OpenAI称此为“免费搭车”和知识产权盗窃,甚至上升到国家安全风险。争议焦点:蒸馏技术本身行业通用,OpenAI早期也曾大规模使用互联网数据训练,却被指“双标”。DeepSeek尚未正式回应,但事件已点燃中美AI竞争新火药味,可能推动更严格的API防护和立法。这不仅是技术纠纷,更是美国试图遏制中国AI低成本崛起的信号。AI知识产权之战升级,全球行业分化或将加剧。

DeepSeek 模型蒸馏 AI盗窃
1,117
Research Lab

赢政研究院首发硬件天梯图:一部300元旧手机跑通DeepSeek,万元级4090封神"穷人法拉利"

赢政研究院(Winzheng Research Lab)今日发布2026年第一季度《DeepSeek最佳运行硬件排行榜》,首次将数据中心级GPU、消费级显卡、苹果笔记本与一部2018年产旧手机放在同一张考卷上进行AI推理实测。结果显示:售价仅万元出头的NVIDIA RTX 4090以58 Token/s的生成速度和碾压级性价比夺得"穷人的法拉利"称号;苹果M4 Max凭借128GB统一内存成功运行700亿参数大模型,能效比达到4090的七倍;而一部二手仅300元的小米8,竟也成功跑通了DeepSeek——尽管它在推理过程中热得足以充当暖手宝。该报告宣告:AI民主化的时代,已经到来。

DeepSeek 硬件评测 RTX 4090
936

深度解析:从 DeepSeek 到 Gemini,如何构建防御“模型蒸馏”的铜墙铁壁?

谷歌Gemini遭模型蒸馏攻击曝光后,winzheng Research Lab最新报告剖析DeepSeek事件,揭示攻击链条全貌。从API异常调用到混合训练路径,事件铁证如山。报告提出API智能风控、输出水印及模型对抗训练的纵深防御体系,并给出企业三步走实施指南。面对低成本克隆威胁,AI企业如何守住护城河?本文深度解析反蒸馏策略,助你构建铜墙铁壁。(128字)

DeepSeek 模型蒸馏 AI安全
1,056
MIT

中国开源AI的下一个前沿

过去一年,中国AI迎来转折点。自DeepSeek于2025年1月发布R1推理模型以来,中国企业频频推出开源AI创新,挑战全球格局。MIT Technology Review的《What's Next》系列探讨其未来:开源生态加速构建、多模态模型崛起、推理能力跃升。尽管面临芯片限制与地缘挑战,中国开源AI正重塑全球竞争,预计2026年将涌现更多重量级模型,推动AI民主化。

中国AI 开源模型 DeepSeek
437

DeepSeek Inference 5.1 基准测试全解析

DeepSeek Inference 5.1 是DeepSeek最新发布的推理引擎,在 MLCommons 推理基准中表现出色。该版本针对大模型高效推理进行了优化,支持 SGLang 等框架,显著提升了吞吐量和延迟性能。测试数据显示,在 Llama 3.1 405B 等模型上,DeepSeek Inference 5.1 的性能超越了 vLLM 和 TensorRT-LLM 等竞品,Elo Rating 排名前列。文章详解其关键特性、基准结果及实际部署建议,助力开发者选择最佳推理方案。(128字)

MLC DeepSeek 推理引擎
515

GB200 NVL72部署DeepSeek优化(二):预填充3.8倍、解码4.8倍吞吐量

GB200 NVL72作为深度学习最强硬件之一,本文分享SGLang团队在上篇博客基础上,对DeepSeek V3/R1推理性能的进一步优化,包括FP8 attention、NVFP4 MoE、大规模专家并行(EP)、预填充-解码分离等技术。在FP8 attention和NVFP4 MoE下,SGLang实现每GPU预填充26,156 tokens/s、解码13,386 tokens/s(2000 token输入),较H100提升3.8倍和4.8倍。即使采用传统BF16 attention和FP8 MoE,也达18,471和9,087 tokens/s。优化涵盖低精度计算、更快内核集成、计算通信重叠等,精度损失微乎其微。实验验证了端到端性能大幅提升,并分析了内核级加速效果。(128字)

LMSYS SGLang DeepSeek
572