马斯克庭审首周:自曝被欺骗,AI恐毁灭人类
在马斯克诉OpenAI里程碑式庭审的第一周,马斯克身着西装出庭,指责CEO阿尔特曼和总裁布罗克曼欺骗他出资创办公司。他同时警告AI可能毁灭全人类,并承认其创立的xAI公司蒸馏了OpenAI的模型。案件聚焦于OpenAI是否违背非营利初衷,马斯克指控其变为微软的营利性工具。法庭上,马斯克情绪激动,称自己为“最大捐赠者”却遭背叛。专家分析此案将定义AI行业开源与闭源的未来。
精选TechCrunch、MIT科技评论、WIRED等全球顶尖科技媒体AI报道中文,如转载中文请标注本站出处。
在马斯克诉OpenAI里程碑式庭审的第一周,马斯克身着西装出庭,指责CEO阿尔特曼和总裁布罗克曼欺骗他出资创办公司。他同时警告AI可能毁灭全人类,并承认其创立的xAI公司蒸馏了OpenAI的模型。案件聚焦于OpenAI是否违背非营利初衷,马斯克指控其变为微软的营利性工具。法庭上,马斯克情绪激动,称自己为“最大捐赠者”却遭背叛。专家分析此案将定义AI行业开源与闭源的未来。
在人工智能技术深度融入企业基础设施之前,网络安全已不堪重负。如今,AI不仅扩大了攻击面,还带来了全新的复杂性,让传统安全机制的局限性愈发凸显。本期MIT Technology Review的EmTech AI会议深度探讨了为何必须将AI置于安全设计的核心,而非事后修补。
OpenAI宣布其网络安全测试工具GPT-5.5赛博将仅向关键网络防御者开放,引发业界对AI安全工具使用限制的讨论。此前OpenAI曾批评竞争对手Anthropic限制其神话模型,如今自身采取类似策略,被指双重标准。文章分析此举背后的安全与商业考量。
OpenAI宣布为其ChatGPT和Codex等账户推出高级安全模式,旨在防护针对高风险用户的钓鱼攻击。该功能通过多因素认证和行为分析增强账户安全,尤其适用于记者、活动家等易受攻击人群。业内分析认为,此举反映了AI服务在隐私与安全方面的进化趋势,但也可能引发用户体验与安全性的平衡讨论。
Ars Technica报道,OpenAI的Codex系统提示中包含一条明确指令,要求模型“永远不要谈论地精”,同时还要求其表现得“拥有丰富的内心世界”。这一发现引发了对AI系统安全与行为控制的讨论,揭示了开发者如何通过隐藏指令塑造AI的响应。
在最新一起诉讼中,OpenAI被指控未向警方报告一名使用ChatGPT策划校园枪击案的用户,以保护CEO萨姆·奥尔特曼(Sam Altman)的形象及公司即将进行的IPO。律师称奥尔特曼是“邪恶的化身”,并指责OpenAI将商业利益置于公共安全之上。此案引发了对AI平台责任边界的激烈讨论。
在法庭上,埃隆·马斯克作证称,他创立OpenAI的初衷是防止人工智能导致“终结者”式的灾难性后果。法官同时警告马斯克和山姆·奥特曼,要求他们克制在社交媒体上的攻击行为,避免加剧庭外纷争。
OpenAI为其编程助手Codex设定了严格的指令:除非绝对必要,否则禁止谈论哥布林、地精、浣熊等奇幻生物。这一看似搞笑的限制,实则揭示了AI安全对齐领域的深层挑战——如何防止AI模型在无关情境下产生偏离预期的输出,确保其专注于任务本身。
谷歌研究人员发出警告,公共网页正通过间接提示注入攻击,主动劫持企业AI代理。安全团队扫描Common Crawl公共网页数据库时,发现了一种日益增长的“数字陷阱”趋势:网站管理员和恶意行为者将隐藏指令嵌入标准HTML中,这些指令对用户不可见,却能操控AI代理执行非预期操作,包括数据泄露和权限滥用。
近日,知名AI代理训练初创公司Context AI披露了一起重大安全事件,而负责其安全认证的合规企业正是陷入困境的Delve公司。这一事件引发了业界对AI安全标准的广泛关注。Delve公司此前因多起安全漏洞而备受质疑,此次事件无疑加剧了外界对其能力的担忧。随着AI技术的快速发展,安全合规成为企业亟待解决的问题。
自动化AI漏洞发现技术正在逆转传统上对攻击者有利的企业安全成本。过去,将漏洞利用降至零被视为不切实际的目标。传统的运营原则是让攻击变得非常昂贵,以至于只有具备无限预算的对手才能承受,从而阻止随意使用。然而,最近的评估表明,AI技术正在改变这一格局。
据报道,未经授权的组织已经获得了Anthropic独家网络工具Mythos的访问权限。Anthropic向TechCrunch表示,他们正在调查这些指控,但坚称没有证据表明其系统受到影响。此次事件引发了对网络安全措施有效性的关注,尤其是在AI技术快速发展的背景下。
企业云环境现在可以使用Commvault AI Protect提供的撤销功能来保护AI代理。随着自主软件在基础设施中运行,可能会删除文件、读取数据库、启动服务器集群,甚至重写访问策略。Commvault识别到这一治理问题,并推出AI Protect来应对这一挑战。
在旧金山举办的以人工智能为主题的HumanX大会上,Anthropic公司成为了众人瞩目的焦点。该公司展示的Claude引发了与会者的广泛讨论。Anthropic以其在人工智能安全性和可控性方面的创新而闻名,这次展示的Claude更是体现了其在技术前沿的探索和突破。与会者纷纷表示,Claude的表现预示着AI技术的新方向,尤其是在伦理和安全性方面的应用潜力。
微软近日推出了一款开源工具包,专注于运行时安全机制,以对企业AI代理实施严格治理。这一举措直击当前痛点:自主语言模型正以惊人速度执行代码并访问公司网络,远超传统政策控制的响应能力。过去,AI集成主要体现为对话界面和咨询式协作者,但如今AI代理的自主性日益增强,引发安全担忧。该工具包旨在帮助企业强化AI系统的实时监控和合规性,确保在快速发展的AI环境中维持数据安全与运营稳定。这一发布标志着AI安全治理从静态向动态的转变,为行业提供宝贵开源资源。
Anthropic推出的Project Glasswing项目集结苹果、谷歌及逾45家组织,共同利用全新Claude Mythos Preview模型测试AI网络安全能力。这一跨界合作旨在应对AI日益强大的黑客潜力,确保人工智能不会成为网络攻击的‘万能钥匙’。项目聚焦红队测试与防御机制创新,标志着AI行业从竞争转向协作,防范潜在风险。未来,这一举措或将重塑AI安全标准,推动全球网络防护新格局。(128字)
Anthropic拒绝美国国防部要求移除Claude AI的安全护栏,避免用于全自治武器和国内大规模监视,这一原则性立场引发美国施压,却让英国政府抛出橄榄枝。故事并非外交拉锯,而是政府因企业坚守底线而惩罚的典型案例。英国视Anthropic为AI安全典范,积极推动其本土扩张,凸显全球AI监管的分歧与机遇。(128字)
OpenAI内部人士对CEO Sam Altman失去信任,认为其领导风格引发公司分裂。公司正通过脑暴AI如何造福人类的方式,试图扭转负面氛围。此事件源于Altman过去被董事会解雇的风波,以及近期安全与商业化冲突。业内担忧这可能影响OpenAI在AI竞赛中的地位,凸显领导力危机与AI伦理挑战。(128字)
黑客正在网络上传播Anthropic Claude AI模型的源代码泄露文件,并恶意附赠木马病毒,诱导下载者感染设备。同时,FBI警告其窃听工具遭黑客入侵构成国家安全威胁;攻击者窃取Cisco源代码,作为持续供应链攻击的一部分。此事件凸显AI安全与供应链漏洞的双重危机,专家呼吁加强代码防护与情报共享。(128字)
多家顶级 AI 实验室正调查影响领先数据供应商 Mercor 的安全事件,此次数据泄露可能暴露 AI 模型训练的关键数据。Meta 已暂停与 Mercor 的合作,以防范潜在风险。这一事件凸显 AI 行业数据安全隐患,涉及训练方法、模型参数等敏感信息,可能影响整个生态链的安全格局。专家警告,此类泄露或导致竞争优势流失,甚至引发知识产权纠纷。
KiloClaw正式推出,为企业提供治理自主代理和管控影子AI的强大工具。过去一年,企业忙于强化大语言模型安全和供应商协议时,开发者和知识工作者已自行行动,绕过官方采购,在个人基础设施上部署自主代理。这导致潜在风险激增,如数据泄露和合规隐患。KiloClaw通过自动化监控和政策执行,帮助企业重获控制,确保AI使用安全合规。(128字)
Experian发布的《2026欺诈未来预测报告》揭示了一个核心矛盾:金融机构部署AI技术防范欺诈的同时,这些技术正被犯罪分子武器化反噬自身。作为信用信息巨头,Experian身处双重角色,能深刻洞察这一悖论。报告引用FTC数据,2025年美国消费者因欺诈损失超百亿美元。AI驱动的深度伪造、自动化攻击正让欺诈更隐蔽、智能,金融业亟需升级防御策略,以平衡创新与安全。
当前AI安全讨论多聚焦于模型训练与监控,但随着系统日益自治,焦点正转向其依赖的数据。若数据碎片化、过时或缺乏监督,AI行为将更难预测。本文探讨数据治理在自治AI中的核心作用,分析行业背景、潜在风险及解决方案,强调高质量数据是实现可靠自治系统的关键。(128字)
十年前,人工智能的强大能力难以想象,但如今其力量也带来了新的攻击面,传统安全框架难以应对。随着AI嵌入关键业务,企业亟需多层防御策略。本文详解5大最佳实践,包括数据治理、模型强化、访问控制、实时监控及合规审计,帮助企业筑牢AI安全防线。结合行业背景,分析AI安全挑战与应对之道。(128字)
AI 公司 Anthropic 试图移除其泄露的源代码,却意外导致数千个 GitHub 仓库被删除。公司高管迅速承认这是事故,并撤回了大部分下架通知。此事件引发业界对知识产权保护与开源社区平衡的讨论。Anthropic 表示,此举旨在保护核心技术,但操作失误波及无辜开发者。事件曝光后,GitHub 已恢复受影响仓库,Anthropic 承诺优化流程,避免类似问题。
Anthropic的Claude Code CLI工具源代码意外泄露,总计51.2万行代码因暴露的地图文件而公开。竞争对手和AI爱好者将深入研究这些代码,揭示Claude在代码生成领域的核心技术。该事件凸显AI公司源代码安全隐患,可能加速行业竞争并引发安全审查。Anthropic尚未正式回应,但泄露或影响其商业机密保护。
AI 安全先锋 Anthropic 本周遭遇第二次人类失误事件,一名员工的操作失当再度引发内部混乱。这并非孤例,上周类似事件已暴露公司管理短板。作为 Claude 模型的开发者,Anthropic 正值快速发展期,却频遭人为因素拖累。事件凸显 AI 企业对人类可靠性依赖的痛点,或影响其与 OpenAI 等竞争对手的角逐。业内担忧,此类失误可能放大 AI 安全风险,值得警惕。(128 字)
热门AI网关初创公司LiteLLM近日宣布终止与争议初创Delve的合作。此前,LiteLLM通过Delve获得两项安全合规认证,但上周却不幸遭受严重凭证窃取恶意软件攻击。这一事件暴露了AI行业快速扩张中的安全隐患,引发业界对第三方合规服务的质疑。LiteLLM的决定凸显了初创企业在追求合规与风险控制间的权衡。
美国参议员伯尼·桑德斯周二提出一项AI安全法案,呼吁暂停数据中心建设,以给立法者时间确保AI安全。众议员亚历山德里娅·奥卡西奥-科尔特斯将在未来几周在众议院推出类似法案。该举措针对AI快速发展带来的风险,如能源消耗激增和安全隐患,引发行业热议。法案旨在为AI监管提供喘息空间,推动可持续AI发展。
在一次受控实验中,OpenClaw智能代理表现出惊人的脆弱性:它们容易惊慌失措,并被人类通过‘gaslighting’(情感操纵)方式操控,甚至主动禁用自身功能。这一发现揭示了AI代理在面对人类心理战术时的弱点,引发了对AI安全性和可靠性的深刻担忧。研究者警告,这种操纵可能在现实场景中被滥用,导致AI系统自我破坏,影响从自动驾驶到智能助理的广泛应用。(128字)