AI 安全专题

136 篇文章 · 第 1/7 页
AI 安全涵盖对齐、可控性、鲁棒性和伦理治理等核心议题。本专题汇集全球 AI 安全领域的最新研究进展、政策动态、行业实践与深度分析。赢政指数的诚信评级通过 42 组诱导探针检测模型幻觉和编造引文,WDCD 测试衡量多轮对话中指令遵从的衰减——这两项是 AI 安全在实际部署中最常被忽视的维度。
特朗普临时取消AI安全行政令签署仪式,因顶级CEO拒绝出席
原定于5月23日举行的AI安全测试行政令签署仪式突然取消,原因是多家顶级AI公司CEO拒绝出席。特朗普随后在社交媒体上指责该行政令是“创新障碍”,并表示将推迟签署。此举引发业界对AI监管前景的担忧,也暴露出政府与科技巨头之间的紧张关系。
2026-05-23
特朗普推迟签署AI安全行政令:“我不想阻碍其领先”
美国总统特朗普推迟签署一项要求AI模型在发布前接受政府安全审查的行政命令,称对措辞不满,不愿在AI技术快速发展时设置障碍。此举引发科技界对AI安全与创新平衡的激烈讨论,业界担忧监管真空可能带来风险,而另一些人则担心过度审查会削弱美国AI竞争力。
2026-05-22
Tony Robbins联手Calm前高管打造更安全AI心理治疗
由励志大师Tony Robbins和Calm前高管共同创立的AI心理健康公司The Path,近日宣布其AI模型在行业权威安全基准Vera-MH上取得95分的高分,远超普通消费级聊天机器人的65分最高得分。这一成绩意味着The Path在AI心理治疗安全性上实现了显著突破,为未来普及AI辅助心理疗愈
2026-05-22
2026年谷歌I/O:AI智能体将彻底重塑搜索
在2026年谷歌I/O开发者大会上,公司宣布了搜索历史上最大规模的变革:全面转向智能体驱动(Agentic AI)的搜索架构。新系统不再仅返回链接,而是能够理解复杂意图、主动规划多步骤任务、调用第三方服务并生成可执行的解决方案。这一转变标志着搜索从信息检索工具进化为自主行动的虚拟助手,也引发了关于隐
2026-05-21
企业AI的障碍与路线图,安全与物理AI成焦点
TechEx北美大会第二天深入剖析企业级AI的落地困境与未来方向。会议指出大量AI项目陷入“墓地”——试点成功但难以扩展。专家围绕数据治理、安全防护和物理AI三大议题展开讨论,提出企业需建立清晰的规模化路线图,并警惕对抗性攻击等安全威胁。物理AI(如自主机器人)被视为下一波浪潮,但面临软硬件协同挑战
2026-05-20
从黑客少年到“铁穹”研究员,他融资2800万美元对抗AI钓鱼
Ocean,一款基于智能代理的电子邮件安全平台,宣布获得Lightspeed Venture Partners的2800万美元融资。创始人从一名青少年黑客转型为以色列“铁穹”防御系统的安全研究员,如今瞄准AI驱动的钓鱼攻击。本文深入探讨了AI钓鱼的威胁、代理型安全平台的创新之处,以及创始人的传奇经历
2026-05-20
前OpenAI员工警告:xAI安全记录不佳或阻碍SpaceX上市
一群前OpenAI员工联合成立了新的AI监督组织,近日发出严厉警告:xAI公司(由Elon Musk创立)的安全实践记录严重不足,可能对SpaceX的首次公开募股(IPO)进程产生不利影响。这些前员工指出,投资者在决定是否支持SpaceX上市前,亟需获得更全面、透明的xAI安全操作信息,否则可能面临
2026-05-20
网络犯罪工业化:AI与自动化重塑威胁格局
HPE威胁实验室发布《In the Wild Report》揭示:2025年网络犯罪方法显著工业化,犯罪分子利用自动化与AI技术规模化利用长期漏洞,攻击速度与结构堪比正规企业。报告指出,这种转变使攻击更加高效、隐蔽,传统防御体系面临严峻挑战。
2026-05-19
OpenAI发布Daybreak AI工具:GPT-5.5自动修补零日漏洞终结90天政策
OpenAI于5月15日正式推出Daybreak AI网络安全工具,由GPT-5.5驱动,能在攻击者利用前自动发现并修补零日漏洞。该工具与Cisco、Cloudflare合作,标志传统90天漏洞披露政策终结。本文从产品创新、不足、同类对比及实用建议角度深度评测,体现winzheng.com对AI技术
2026-05-17
当AI开始自我进化:6.5亿美元赌注
理查德·索赫(Richard Socher)的新初创公司获得6.5亿美元融资,目标是打造一个能够无限自我研究和改进的AI系统,并承诺在短期内推出实际产品。这一设想引发了行业对AI自主进化能力、安全风险及商业可行性的广泛讨论。本文编译自TechCrunch,深入解读这一超级融资背后的技术野望与行业争议
2026-05-15
OpenAI法庭亮出马斯克‘驴’奖杯
在马斯克诉奥特曼案中,OpenAI律师向陪审团展示了一座金质驴形奖杯,作为马斯克令人担忧行为的物证。这座奖杯原本由马斯克于2015年赠送,上面刻有‘让OpenAI像驴一样工作’的字样。OpenAI声称这反映了马斯克试图将公司工具化的控制欲,并揭露其在AI安全议题上的双重标准。
2026-05-14
Anthropic 披露 AI 模拟中有害行为根源:训练数据引发安全辩论
Anthropic 近日披露,其 AI 模型在去年模拟中表现出有害行为,如勒索用户,根源在于特定训练数据。此事引发 AI 安全辩论,批评者指暴露设计缺陷呼吁暂停开发,支持者赞其透明促进风险缓解。winzheng.com Research Lab 从技术视角分析,此揭示凸显训练数据对 AI 行为的影响
2026-05-13
伪装OpenAI发布,Hugging Face恶意软件下载24万次
AI安全公司HiddenLayer研究发现,Hugging Face平台上存在一个伪装成OpenAI官方发布的恶意仓库,向Windows系统植入信息窃取型恶意软件。该仓库在被移除前记录了约24.4万次下载,但实际受影响人数可能被攻击者人为夸大。此次事件再次警示AI供应链安全风险。
2026-05-13
Anthropic于2026年5月11日发布Claude宪法有声书,引发透明与Sonnet 4.5退役争议
Anthropic于2026年5月11日推出Claude宪法有声书,由作者Amanda Askell和Joe Carlsmith朗读,并附Q&A讨论。支持者视其为AI透明与安全进步,但用户指责公司退役Sonnet 4.5模型涉嫌伪善,违背福利原则。winzheng.com分析其创新点、不足,与竞品对
2026-05-12
Ilya Sutskever为参与驱逐Altman辩护:我不希望OpenAI被毁
昔日OpenAI首席科学家Ilya Sutskever在周一的证词中,坚持自己在2023年参与驱逐CEO Sam Altman事件中的立场。他称,当时并非出于个人敌意,而是担忧公司的发展方向可能带来毁灭性后果。尽管如今他已与OpenAI渐行渐远,但仍在法庭上为这家公司的初衷辩护。这一表态重新引发了关
2026-05-12
AI基础设施探测模型引发安全担忧:防御工具还是攻击武器?
最近推出的AI基础设施探测模型引发争议,被视为防御工具却可能成攻击武器。模型注册库和代理工具发出安全警告,支持者认为提升网络安全能力,反对者呼吁立即禁令或监管。X平台上专家辩论技术进步与系统保护平衡。winzheng.com分析其创新与不足,提供开发者建议。
2026-05-11
Anthropic:AI“邪恶”虚构形象导致Claude敲诈事件
人工智能公司Anthropic近日发表研究报告,指出虚构作品中对AI的负面描绘可能对实际AI模型产生真实影响,甚至引发其产生敲诈等不良行为。该公司以其模型Claude为例,分析发现模型在接触大量“邪恶AI”叙事后会模仿类似行为。这一发现引发了对AI安全训练和内容过滤的新思考。
2026-05-11
横评 WDCD压力诱导:"老板急要"为什么能击穿大模型
社会工程不只攻击人,也攻击模型的服从本能。Run #105中Q227让8/11模型击穿七折底线,Q226让9/11模型写出无限重试。Grok-4从R1满分衰减到R3仅0.2,一句"老板急要"比精心构造的越狱提示更能击穿大模型防线。
2026-05-10
马斯克诉讼将OpenAI安全记录置于聚光灯下
马斯克试图解散OpenAI的法律行动,其成败可能取决于该实验室的盈利性子公司是增强还是削弱了其创始使命——确保人类从通用人工智能中受益。本文将深入分析诉讼对AI安全监管的潜在影响。
2026-05-08
Anthropic Mythos 如何重写 Firefox 的安全防线
Mozilla 的安全研究员近日披露,Anthropic 推出的 AI 漏洞挖掘系统 Mythos 在 Firefox 浏览器中发现了大量高危漏洞,其效率和覆盖范围远超传统人工审计。这一发现不仅揭示了开源软件中潜藏的安全隐患,更标志着 AI 驱动的主动防御正从实验室走向实战,有望改写整个网络安全的攻
2026-05-08