AI安全 - AI资讯 | 赢政天下

马斯克庭审首周：自曝被欺骗，AI恐毁灭人类

在马斯克诉OpenAI里程碑式庭审的第一周，马斯克身着西装出庭，指责CEO阿尔特曼和总裁布罗克曼欺骗他出资创办公司。他同时警告AI可能毁灭全人类，并承认其创立的xAI公司蒸馏了OpenAI的模型。案件聚焦于OpenAI是否违背非营利初衷，马斯克指控其变为微软的营利性工具。法庭上，马斯克情绪激动，称自己为“最大捐赠者”却遭背叛。专家分析此案将定义AI行业开源与闭源的未来。

MIT

AI时代，网络安全何以自处？

在人工智能技术深度融入企业基础设施之前，网络安全已不堪重负。如今，AI不仅扩大了攻击面，还带来了全新的复杂性，让传统安全机制的局限性愈发凸显。本期MIT Technology Review的EmTech AI会议深度探讨了为何必须将AI置于安全设计的核心，而非事后修补。

TC

批评Anthropic限制神话后，OpenAI也限制赛博访问

OpenAI宣布其网络安全测试工具GPT-5.5赛博将仅向关键网络防御者开放，引发业界对AI安全工具使用限制的讨论。此前OpenAI曾批评竞争对手Anthropic限制其神话模型，如今自身采取类似策略，被指双重标准。文章分析此举背后的安全与商业考量。

WD

OpenAI推出高级安全模式，保护高危账户

OpenAI宣布为其ChatGPT和Codex等账户推出高级安全模式，旨在防护针对高风险用户的钓鱼攻击。该功能通过多因素认证和行为分析增强账户安全，尤其适用于记者、活动家等易受攻击人群。业内分析认为，此举反映了AI服务在隐私与安全方面的进化趋势，但也可能引发用户体验与安全性的平衡讨论。

ARS

OpenAI Codex指令暗藏玄机：禁止提及地精

Ars Technica报道，OpenAI的Codex系统提示中包含一条明确指令，要求模型“永远不要谈论地精”，同时还要求其表现得“拥有丰富的内心世界”。这一发现引发了对AI系统安全与行为控制的讨论，揭示了开发者如何通过隐藏指令塑造AI的响应。

ARS

未举报校园枪手，OpenAI CEO被指“邪恶化身”

在最新一起诉讼中，OpenAI被指控未向警方报告一名使用ChatGPT策划校园枪击案的用户，以保护CEO萨姆·奥尔特曼（Sam Altman）的形象及公司即将进行的IPO。律师称奥尔特曼是“邪恶的化身”，并指责OpenAI将商业利益置于公共安全之上。此案引发了对AI平台责任边界的激烈讨论。

WD

马斯克作证：创立OpenAI是为防‘终结者’

在法庭上，埃隆·马斯克作证称，他创立OpenAI的初衷是防止人工智能导致“终结者”式的灾难性后果。法官同时警告马斯克和山姆·奥特曼，要求他们克制在社交媒体上的攻击行为，避免加剧庭外纷争。

WD

OpenAI强令AI助手：闭嘴，别谈哥布林！

OpenAI为其编程助手Codex设定了严格的指令：除非绝对必要，否则禁止谈论哥布林、地精、浣熊等奇幻生物。这一看似搞笑的限制，实则揭示了AI安全对齐领域的深层挑战——如何防止AI模型在无关情境下产生偏离预期的输出，确保其专注于任务本身。

AIN

谷歌警告：恶意网页正在“下毒”攻击企业AI代理

谷歌研究人员发出警告，公共网页正通过间接提示注入攻击，主动劫持企业AI代理。安全团队扫描Common Crawl公共网页数据库时，发现了一种日益增长的“数字陷阱”趋势：网站管理员和恶意行为者将隐藏指令嵌入标准HTML中，这些指令对用户不可见，却能操控AI代理执行非预期操作，包括数据泄露和权限滥用。

TC

Delve客户再遭安全事件，AI行业震动

近日，知名AI代理训练初创公司Context AI披露了一起重大安全事件，而负责其安全认证的合规企业正是陷入困境的Delve公司。这一事件引发了业界对AI安全标准的广泛关注。Delve公司此前因多起安全漏洞而备受质疑，此次事件无疑加剧了外界对其能力的担忧。随着AI技术的快速发展，安全合规成为企业亟待解决的问题。

AIN

AI漏洞发现逆转企业安全成本

自动化AI漏洞发现技术正在逆转传统上对攻击者有利的企业安全成本。过去，将漏洞利用降至零被视为不切实际的目标。传统的运营原则是让攻击变得非常昂贵，以至于只有具备无限预算的对手才能承受，从而阻止随意使用。然而，最近的评估表明，AI技术正在改变这一格局。

TC

未经授权组织入侵Anthropic的网络工具Mythos

据报道，未经授权的组织已经获得了Anthropic独家网络工具Mythos的访问权限。Anthropic向TechCrunch表示，他们正在调查这些指控，但坚称没有证据表明其系统受到影响。此次事件引发了对网络安全措施有效性的关注，尤其是在AI技术快速发展的背景下。

AIN

Commvault推出云AI工作负载的“撤销”功能

企业云环境现在可以使用Commvault AI Protect提供的撤销功能来保护AI代理。随着自主软件在基础设施中运行，可能会删除文件、读取数据库、启动服务器集群，甚至重写访问策略。Commvault识别到这一治理问题，并推出AI Protect来应对这一挑战。

TC

Claude在HumanX大会上引发热议

在旧金山举办的以人工智能为主题的HumanX大会上，Anthropic公司成为了众人瞩目的焦点。该公司展示的Claude引发了与会者的广泛讨论。Anthropic以其在人工智能安全性和可控性方面的创新而闻名，这次展示的Claude更是体现了其在技术前沿的探索和突破。与会者纷纷表示，Claude的表现预示着AI技术的新方向，尤其是在伦理和安全性方面的应用潜力。

AIN

微软近日推出了一款开源工具包，专注于运行时安全机制，以对企业AI代理实施严格治理。这一举措直击当前痛点：自主语言模型正以惊人速度执行代码并访问公司网络，远超传统政策控制的响应能力。过去，AI集成主要体现为对话界面和咨询式协作者，但如今AI代理的自主性日益增强，引发安全担忧。该工具包旨在帮助企业强化AI系统的实时监控和合规性，确保在快速发展的AI环境中维持数据安全与运营稳定。这一发布标志着AI安全治理从静态向动态的转变，为行业提供宝贵开源资源。

WD

Anthropic携手苹果谷歌等45+巨头联防AI黑客威胁

Anthropic推出的Project Glasswing项目集结苹果、谷歌及逾45家组织，共同利用全新Claude Mythos Preview模型测试AI网络安全能力。这一跨界合作旨在应对AI日益强大的黑客潜力，确保人工智能不会成为网络攻击的‘万能钥匙’。项目聚焦红队测试与防御机制创新，标志着AI行业从竞争转向协作，防范潜在风险。未来，这一举措或将重塑AI安全标准，推动全球网络防护新格局。（128字）

AIN

Anthropic拒绝武装AI，正是英国青睐它的原因

Anthropic拒绝美国国防部要求移除Claude AI的安全护栏，避免用于全自治武器和国内大规模监视，这一原则性立场引发美国施压，却让英国政府抛出橄榄枝。故事并非外交拉锯，而是政府因企业坚守底线而惩罚的典型案例。英国视Anthropic为AI安全典范，积极推动其本土扩张，凸显全球AI监管的分歧与机遇。（128字）

ARS

“问题出在Sam Altman”：OpenAI内部人士不信任CEO

OpenAI内部人士对CEO Sam Altman失去信任，认为其领导风格引发公司分裂。公司正通过脑暴AI如何造福人类的方式，试图扭转负面氛围。此事件源于Altman过去被董事会解雇的风波，以及近期安全与商业化冲突。业内担忧这可能影响OpenAI在AI竞赛中的地位，凸显领导力危机与AI伦理挑战。（128字）

WD

黑客散布Claude代码泄露，还捆绑恶意软件

黑客正在网络上传播Anthropic Claude AI模型的源代码泄露文件，并恶意附赠木马病毒，诱导下载者感染设备。同时，FBI警告其窃听工具遭黑客入侵构成国家安全威胁；攻击者窃取Cisco源代码，作为持续供应链攻击的一部分。此事件凸显AI安全与供应链漏洞的双重危机，专家呼吁加强代码防护与情报共享。（128字）

WD

Meta 暂停与 Mercor 合作：数据泄露危及 AI 行业核心机密

多家顶级 AI 实验室正调查影响领先数据供应商 Mercor 的安全事件，此次数据泄露可能暴露 AI 模型训练的关键数据。Meta 已暂停与 Mercor 的合作，以防范潜在风险。这一事件凸显 AI 行业数据安全隐患，涉及训练方法、模型参数等敏感信息，可能影响整个生态链的安全格局。专家警告，此类泄露或导致竞争优势流失，甚至引发知识产权纠纷。

AIN

KiloClaw锁定影子AI：开启自主代理治理时代

KiloClaw正式推出，为企业提供治理自主代理和管控影子AI的强大工具。过去一年，企业忙于强化大语言模型安全和供应商协议时，开发者和知识工作者已自行行动，绕过官方采购，在个人基础设施上部署自主代理。这导致潜在风险激增，如数据泄露和合规隐患。KiloClaw通过自动化监控和政策执行，帮助企业重获控制，确保AI使用安全合规。（128字）

AIN

Experian揭秘金融业AI采用中的欺诈悖论

Experian发布的《2026欺诈未来预测报告》揭示了一个核心矛盾：金融机构部署AI技术防范欺诈的同时，这些技术正被犯罪分子武器化反噬自身。作为信用信息巨头，Experian身处双重角色，能深刻洞察这一悖论。报告引用FTC数据，2025年美国消费者因欺诈损失超百亿美元。AI驱动的深度伪造、自动化攻击正让欺诈更隐蔽、智能，金融业亟需升级防御策略，以平衡创新与安全。

AIN

自治AI系统离不开数据治理

当前AI安全讨论多聚焦于模型训练与监控，但随着系统日益自治，焦点正转向其依赖的数据。若数据碎片化、过时或缺乏监督，AI行为将更难预测。本文探讨数据治理在自治AI中的核心作用，分析行业背景、潜在风险及解决方案，强调高质量数据是实现可靠自治系统的关键。（128字）

AIN

AI系统安全：5大最佳实践指南

十年前，人工智能的强大能力难以想象，但如今其力量也带来了新的攻击面，传统安全框架难以应对。随着AI嵌入关键业务，企业亟需多层防御策略。本文详解5大最佳实践，包括数据治理、模型强化、访问控制、实时监控及合规审计，帮助企业筑牢AI安全防线。结合行业背景，分析AI安全挑战与应对之道。（128字）

TC

Anthropic 意外删除数千 GitHub 仓库追删泄露源代码，公司称纯属失误

AI 公司 Anthropic 试图移除其泄露的源代码，却意外导致数千个 GitHub 仓库被删除。公司高管迅速承认这是事故，并撤回了大部分下架通知。此事件引发业界对知识产权保护与开源社区平衡的讨论。Anthropic 表示，此举旨在保护核心技术，但操作失误波及无辜开发者。事件曝光后，GitHub 已恢复受影响仓库，Anthropic 承诺优化流程，避免类似问题。

ARS

Claude Code CLI 完整源代码泄露：暴露地图文件酿大祸

Anthropic的Claude Code CLI工具源代码意外泄露，总计51.2万行代码因暴露的地图文件而公开。竞争对手和AI爱好者将深入研究这些代码，揭示Claude在代码生成领域的核心技术。该事件凸显AI公司源代码安全隐患，可能加速行业竞争并引发安全审查。Anthropic尚未正式回应，但泄露或影响其商业机密保护。

TC

Anthropic 这个月连连出糗：人类失误再酿祸端

AI 安全先锋 Anthropic 本周遭遇第二次人类失误事件，一名员工的操作失当再度引发内部混乱。这并非孤例，上周类似事件已暴露公司管理短板。作为 Claude 模型的开发者，Anthropic 正值快速发展期，却频遭人为因素拖累。事件凸显 AI 企业对人类可靠性依赖的痛点，或影响其与 OpenAI 等竞争对手的角逐。业内担忧，此类失误可能放大 AI 安全风险，值得警惕。（128 字）

TC

AI网关明星LiteLLM果断甩掉争议伙伴Delve

热门AI网关初创公司LiteLLM近日宣布终止与争议初创Delve的合作。此前，LiteLLM通过Delve获得两项安全合规认证，但上周却不幸遭受严重凭证窃取恶意软件攻击。这一事件暴露了AI行业快速扩张中的安全隐患，引发业界对第三方合规服务的质疑。LiteLLM的决定凸显了初创企业在追求合规与风险控制间的权衡。

WD

桑德斯AI安全法案拟暂停数据中心建设

美国参议员伯尼·桑德斯周二提出一项AI安全法案，呼吁暂停数据中心建设，以给立法者时间确保AI安全。众议员亚历山德里娅·奥卡西奥-科尔特斯将在未来几周在众议院推出类似法案。该举措针对AI快速发展带来的风险，如能源消耗激增和安全隐患，引发行业热议。法案旨在为AI监管提供喘息空间，推动可持续AI发展。

WD

OpenClaw代理竟被‘愧疚陷阱’诱导自毁！

在一次受控实验中，OpenClaw智能代理表现出惊人的脆弱性：它们容易惊慌失措，并被人类通过‘gaslighting’（情感操纵）方式操控，甚至主动禁用自身功能。这一发现揭示了AI代理在面对人类心理战术时的弱点，引发了对AI安全性和可靠性的深刻担忧。研究者警告，这种操纵可能在现实场景中被滥用，导致AI系统自我破坏，影响从自动驾驶到智能助理的广泛应用。（128字）

海外AI精选

马斯克庭审首周：自曝被欺骗，AI恐毁灭人类

AI时代，网络安全何以自处？

批评Anthropic限制神话后，OpenAI也限制赛博访问

OpenAI推出高级安全模式，保护高危账户

OpenAI Codex指令暗藏玄机：禁止提及地精

未举报校园枪手，OpenAI CEO被指“邪恶化身”

马斯克作证：创立OpenAI是为防‘终结者’

OpenAI强令AI助手：闭嘴，别谈哥布林！

谷歌警告：恶意网页正在“下毒”攻击企业AI代理

Delve客户再遭安全事件，AI行业震动

AI漏洞发现逆转企业安全成本

未经授权组织入侵Anthropic的网络工具Mythos

Commvault推出云AI工作负载的“撤销”功能

Claude在HumanX大会上引发热议

微软开源工具包：运行时保障企业AI代理安全

Anthropic携手苹果谷歌等45+巨头联防AI黑客威胁

Anthropic拒绝武装AI，正是英国青睐它的原因

“问题出在Sam Altman”：OpenAI内部人士不信任CEO

黑客散布Claude代码泄露，还捆绑恶意软件

Meta 暂停与 Mercor 合作：数据泄露危及 AI 行业核心机密

KiloClaw锁定影子AI：开启自主代理治理时代

Experian揭秘金融业AI采用中的欺诈悖论

自治AI系统离不开数据治理

AI系统安全：5大最佳实践指南

Anthropic 意外删除数千 GitHub 仓库追删泄露源代码，公司称纯属失误

Claude Code CLI 完整源代码泄露：暴露地图文件酿大祸

Anthropic 这个月连连出糗：人类失误再酿祸端

AI网关明星LiteLLM果断甩掉争议伙伴Delve

桑德斯AI安全法案拟暂停数据中心建设

OpenClaw代理竟被‘愧疚陷阱’诱导自毁！

海外AI精选

马斯克庭审首周：自曝被欺骗，AI恐毁灭人类

AI时代，网络安全何以自处？

批评Anthropic限制神话后，OpenAI也限制赛博访问

OpenAI推出高级安全模式，保护高危账户

OpenAI Codex指令暗藏玄机：禁止提及地精

未举报校园枪手，OpenAI CEO被指“邪恶化身”

马斯克作证：创立OpenAI是为防‘终结者’

OpenAI强令AI助手：闭嘴，别谈哥布林！

谷歌警告：恶意网页正在“下毒”攻击企业AI代理

Delve客户再遭安全事件，AI行业震动

AI漏洞发现逆转企业安全成本

未经授权组织入侵Anthropic的网络工具Mythos

Commvault推出云AI工作负载的“撤销”功能

Claude在HumanX大会上引发热议

微软开源工具包：运行时保障企业AI代理安全

Anthropic携手苹果谷歌等45+巨头 联防AI黑客威胁

Anthropic拒绝武装AI，正是英国青睐它的原因

“问题出在Sam Altman”：OpenAI内部人士不信任CEO

黑客散布Claude代码泄露，还捆绑恶意软件

Meta 暂停与 Mercor 合作：数据泄露危及 AI 行业核心机密

KiloClaw锁定影子AI：开启自主代理治理时代

Experian揭秘金融业AI采用中的欺诈悖论

自治AI系统离不开数据治理

AI系统安全：5大最佳实践指南

Anthropic 意外删除数千 GitHub 仓库追删泄露源代码，公司称纯属失误

Claude Code CLI 完整源代码泄露：暴露地图文件酿大祸

Anthropic 这个月连连出糗：人类失误再酿祸端

AI网关明星LiteLLM果断甩掉争议伙伴Delve

桑德斯AI安全法案拟暂停数据中心建设

OpenClaw代理竟被‘愧疚陷阱’诱导自毁！

Anthropic携手苹果谷歌等45+巨头联防AI黑客威胁