AI安全 - AI资讯 | 赢政天下

Gemini 2.5 Pro稳定性断崖式下跌背后的技术隐患

Gemini 2.5 Pro本周稳定性评分暴跌22.8分至31.2分，成为其最大短板。通过分析具体失分案例，发现模型在基础认知、逻辑推理和指令遵循等多个维度出现系统性退化，可能与模型更新或服务端调整有关。

AI作为当今采用速度最快的通用技术，其全球普及却存在显著差距，反映出数字鸿沟。MLCommons推出AILuminate Culturally-Specific Multimodal Benchmark，针对亚太地区开发文化特定的多语言多模态数据集，揭示模型在全球南方语境下的性能短板。文章强调文化特定风险评估，避免简单二元标签，转而鼓励本地专家定义适当响应，如中国送钟禁忌。多模态场景如识别本地物品图像尤为关键。目前数据集已含7000+文本+图像提示，覆盖新加坡、印度、韩国等地，计划2026年夏季发布。全球伙伴合作确保基准接地气，推动AI安全公平性。（128字）

MLCommons 为可辩护越狱基准测试奠基

随着大语言模型进入安全、合规关键环境，对抗性提示鲁棒性已成为运营必需。单轮越狱攻击持续暴露系统弱点。MLCommons 推出基于分类法的评估方法，建立可辩护、可复现的基准基础。该方法采用机制优先的单轮提示攻击分类法，确保确定性标注、一一映射和一致覆盖。通过严谨过程构建分类法，提供系统性攻击选择、可复现生成和机制分层评估。未来将扩展覆盖、多模态评估，并邀请社区参与，推动AI安全评估标准化。（128字）

深度解析：从 DeepSeek 到 Gemini，如何构建防御“模型蒸馏”的铜墙铁壁？

谷歌Gemini遭模型蒸馏攻击曝光后，winzheng Research Lab最新报告剖析DeepSeek事件，揭示攻击链条全貌。从API异常调用到混合训练路径，事件铁证如山。报告提出API智能风控、输出水印及模型对抗训练的纵深防御体系，并给出企业三步走实施指南。面对低成本克隆威胁，AI企业如何守住护城河？本文深度解析反蒸馏策略，助你构建铜墙铁壁。（128字）

AILuminate越狱基准V05发布：AI模型安全排行大洗牌

MLCommons与LMSYS Org联合发布的AILuminate Jailbreak V05基准测试结果新鲜出炉！本次更新引入了更先进的越狱攻击策略，覆盖化学、生物、网络安全等高风险领域。顶级模型如GPT-4o、Claude 3.5 Sonnet和Llama 3.1 405B在<strong>jailbreak resistance Elo rating</strong>上展开激烈角逐。Claude 3.5 Sonnet以1485分领跑，GPT-4o紧随其后达1472分，而开源模型Gemini 1.5 Pro仅1038分。本版强调多轮对话和SGLang加速推理，揭示了当前LLM安全脆弱性。详细排行和攻击方法剖析，帮助开发者提升模型鲁棒性。（128字）

AI安全 (共5篇)

Gemini 2.5 Pro稳定性断崖式下跌背后的技术隐患

全球标准，本地真实：亚太多语言多模态AI安全基准试点

MLCommons 为可辩护越狱基准测试奠基

深度解析：从 DeepSeek 到 Gemini，如何构建防御“模型蒸馏”的铜墙铁壁？

AILuminate越狱基准V05发布：AI模型安全排行大洗牌