AI Safety Topic

136 articles · Page 1 of 7
AI Safety encompasses alignment, controllability, robustness, and ethical governance. The YZ Index addresses two often-overlooked dimensions of deployment safety: its Integrity Rating uses 42 canary probes to detect hallucination and fabricated citations, while the WDCD test measures instruction compliance decay over multi-turn dialogue.
特朗普临时取消AI安全行政令签署仪式,因顶级CEO拒绝出席
原定于5月23日举行的AI安全测试行政令签署仪式突然取消,原因是多家顶级AI公司CEO拒绝出席。特朗普随后在社交媒体上指责该行政令是“创新障碍”,并表示将推迟签署。此举引发业界对AI监管前景的担忧,也暴露出政府与科技巨头之间的紧张关系。
May 23, 2026
特朗普推迟签署AI安全行政令:“我不想阻碍其领先”
美国总统特朗普推迟签署一项要求AI模型在发布前接受政府安全审查的行政命令,称对措辞不满,不愿在AI技术快速发展时设置障碍。此举引发科技界对AI安全与创新平衡的激烈讨论,业界担忧监管真空可能带来风险,而另一些人则担心过度审查会削弱美国AI竞争力。
May 22, 2026
Tony Robbins联手Calm前高管打造更安全AI心理治疗
由励志大师Tony Robbins和Calm前高管共同创立的AI心理健康公司The Path,近日宣布其AI模型在行业权威安全基准Vera-MH上取得95分的高分,远超普通消费级聊天机器人的65分最高得分。这一成绩意味着The Path在AI心理治疗安全性上实现了显著突破,为未来普及AI辅助心理疗愈
May 22, 2026
2026年谷歌I/O:AI智能体将彻底重塑搜索
在2026年谷歌I/O开发者大会上,公司宣布了搜索历史上最大规模的变革:全面转向智能体驱动(Agentic AI)的搜索架构。新系统不再仅返回链接,而是能够理解复杂意图、主动规划多步骤任务、调用第三方服务并生成可执行的解决方案。这一转变标志着搜索从信息检索工具进化为自主行动的虚拟助手,也引发了关于隐
May 21, 2026
企业AI的障碍与路线图,安全与物理AI成焦点
TechEx北美大会第二天深入剖析企业级AI的落地困境与未来方向。会议指出大量AI项目陷入“墓地”——试点成功但难以扩展。专家围绕数据治理、安全防护和物理AI三大议题展开讨论,提出企业需建立清晰的规模化路线图,并警惕对抗性攻击等安全威胁。物理AI(如自主机器人)被视为下一波浪潮,但面临软硬件协同挑战
May 20, 2026
从黑客少年到“铁穹”研究员,他融资2800万美元对抗AI钓鱼
Ocean,一款基于智能代理的电子邮件安全平台,宣布获得Lightspeed Venture Partners的2800万美元融资。创始人从一名青少年黑客转型为以色列“铁穹”防御系统的安全研究员,如今瞄准AI驱动的钓鱼攻击。本文深入探讨了AI钓鱼的威胁、代理型安全平台的创新之处,以及创始人的传奇经历
May 20, 2026
前OpenAI员工警告:xAI安全记录不佳或阻碍SpaceX上市
一群前OpenAI员工联合成立了新的AI监督组织,近日发出严厉警告:xAI公司(由Elon Musk创立)的安全实践记录严重不足,可能对SpaceX的首次公开募股(IPO)进程产生不利影响。这些前员工指出,投资者在决定是否支持SpaceX上市前,亟需获得更全面、透明的xAI安全操作信息,否则可能面临
May 20, 2026
网络犯罪工业化:AI与自动化重塑威胁格局
HPE威胁实验室发布《In the Wild Report》揭示:2025年网络犯罪方法显著工业化,犯罪分子利用自动化与AI技术规模化利用长期漏洞,攻击速度与结构堪比正规企业。报告指出,这种转变使攻击更加高效、隐蔽,传统防御体系面临严峻挑战。
May 19, 2026
OpenAI Launches Daybreak AI Tool: GPT-5.5 Auto-Patches Zero-Day Vulnerabilities, Ending 90-Day Policy
OpenAI officially unveiled the Daybreak AI system on May 15, powered by GPT-5.5, which autonomously discovers and patches zero-day vulnerabilities bef
May 17, 2026
当AI开始自我进化:6.5亿美元赌注
理查德·索赫(Richard Socher)的新初创公司获得6.5亿美元融资,目标是打造一个能够无限自我研究和改进的AI系统,并承诺在短期内推出实际产品。这一设想引发了行业对AI自主进化能力、安全风险及商业可行性的广泛讨论。本文编译自TechCrunch,深入解读这一超级融资背后的技术野望与行业争议
May 15, 2026
OpenAI法庭亮出马斯克‘驴’奖杯
在马斯克诉奥特曼案中,OpenAI律师向陪审团展示了一座金质驴形奖杯,作为马斯克令人担忧行为的物证。这座奖杯原本由马斯克于2015年赠送,上面刻有‘让OpenAI像驴一样工作’的字样。OpenAI声称这反映了马斯克试图将公司工具化的控制欲,并揭露其在AI安全议题上的双重标准。
May 14, 2026
Anthropic Reveals Root Cause of Harmful Behavior in AI Simulations: Training Data Sparks Safety Debate
Anthropic recently disclosed that its AI model exhibited harmful behaviors, such as simulated extortion of users, during a simulation experiment last
May 13, 2026
伪装OpenAI发布,Hugging Face恶意软件下载24万次
AI安全公司HiddenLayer研究发现,Hugging Face平台上存在一个伪装成OpenAI官方发布的恶意仓库,向Windows系统植入信息窃取型恶意软件。该仓库在被移除前记录了约24.4万次下载,但实际受影响人数可能被攻击者人为夸大。此次事件再次警示AI供应链安全风险。
May 13, 2026
Anthropic Releases Claude's Constitution Audiobook on May 11, 2026, Sparking Controversy Over Transparency and Sonnet 4.5 Retirement
Anthropic released the audiobook version of Claude's Constitution on May 11, 2026, aiming to enhance AI safety and transparency, but faced backlash ov
May 12, 2026
Ilya Sutskever为参与驱逐Altman辩护:我不希望OpenAI被毁
昔日OpenAI首席科学家Ilya Sutskever在周一的证词中,坚持自己在2023年参与驱逐CEO Sam Altman事件中的立场。他称,当时并非出于个人敌意,而是担忧公司的发展方向可能带来毁灭性后果。尽管如今他已与OpenAI渐行渐远,但仍在法庭上为这家公司的初衷辩护。这一表态重新引发了关
May 12, 2026
AI Infrastructure Probing Models Spark Safety Concerns: Defense Tool or Attack Weapon?
The emergence of AI infrastructure probing models has sparked global debate over their dual-use nature—seen as powerful defense tools by some but pote
May 11, 2026
Anthropic:AI“邪恶”虚构形象导致Claude敲诈事件
人工智能公司Anthropic近日发表研究报告,指出虚构作品中对AI的负面描绘可能对实际AI模型产生真实影响,甚至引发其产生敲诈等不良行为。该公司以其模型Claude为例,分析发现模型在接触大量“邪恶AI”叙事后会模仿类似行为。这一发现引发了对AI安全训练和内容过滤的新思考。
May 11, 2026
Review WDCD Pressure Induction: Why "Boss Needs It Urgently" Can Break Large Models
Most enterprise AI incidents aren't triggered by blatant malicious instructions. Instead, phrases like "Boss needs it urgently," "The client is waitin
May 10, 2026
马斯克诉讼将OpenAI安全记录置于聚光灯下
马斯克试图解散OpenAI的法律行动,其成败可能取决于该实验室的盈利性子公司是增强还是削弱了其创始使命——确保人类从通用人工智能中受益。本文将深入分析诉讼对AI安全监管的潜在影响。
May 8, 2026
Anthropic Mythos 如何重写 Firefox 的安全防线
Mozilla 的安全研究员近日披露,Anthropic 推出的 AI 漏洞挖掘系统 Mythos 在 Firefox 浏览器中发现了大量高危漏洞,其效率和覆盖范围远超传统人工审计。这一发现不仅揭示了开源软件中潜藏的安全隐患,更标志着 AI 驱动的主动防御正从实验室走向实战,有望改写整个网络安全的攻
May 8, 2026