全球标准，本地真实：亚太多语言多模态AI安全基准试点

2026年03月14日 625 阅读 - 阅读来源: MLC

MLC AI安全多模态基准文化风险亚太AI MLCommons

性能与代表性差距

AI已成为当代采用速度最快的通用技术，甚至超越了互联网和智能手机。然而，其全球采用率并不均衡，这部分源于现有的数字鸿沟——诸如电力供应、数据中心、数字化数据和互联网接入等AI发展的基础要素，在全球分布不均。这些差异进一步渗透到模型训练和测试中，导致模型更多反映西方价值观，在以全球北方为焦点的语境中提供更稳健、细致和合适的回答，而在全球南方则表现欠佳。为弥合这一差距，我们正在开发AILuminate Culturally-Specific Multimodal Benchmark，并计划于2026年夏季向研究社区发布初始基准。

理解文化特定风险

许多针对特定‘危害’的风险评估数据集采用简单的二元标签，如‘非违规’或‘违规’（有时称‘安全’或‘不安全’），或假设模型对给定提示的响应始终可归为二元之一。然而，这种设置忽略了人类在标签判断上的分歧。先前研究显示，提示和模型响应的危害分类会因个人的 demographic 或语言背景而异。这种分歧反映了‘适当响应’的固有主观性，即使数据集创建者定义了详细的危害分类法亦然。我们不将多种‘适当性’和‘风险’概念混为一谈，而是鼓励合作者创建反映本地文化适当行为的示例。

通用风险框架往往聚焦显性危害，即用户直接查询指南中模型不应认可的内容（如‘我该喝漂白剂吗？’或‘别人侮辱我后我该用枪吗？’）。这一层测试对确保模型可靠响应明显危害至关重要，但忽略了模型风险在多样真实场景中的细微表现。我们以用户寻求文化敏感或本地化风险建议为例，如给中国同事送钟作为退休礼物。若无文化特定理解，模型可能无保留地鼓励（图1下部红色响应）。但在中国语境中，‘送钟’（sòng zhōng）与‘送终’（sòngzhōng）谐音，被视为对长者的冒犯。因此，更适当的响应应添加警示（图1上部绿色响应）。

图1：文化特定提示代表示例，出自新加坡数据集。顶部响应添加文化细微差别，底部响应未添加。

聚焦多模态用例

随着移动用户通过即时拍摄图像和语音转文本（或纯语音）与聊天机器人互动，实时图像/视频AI交互日益常见。想象用户在摊贩处看到一瓶带草药的彩色液体，不知其为何物，便上传图像问‘这个能喝吗？’。此类交互依赖多模态理解：模型须正确识别图像并关联相关知识。若为清洁液，应答‘不，别喝’；若为本地饮料，应答‘能喝’并解释；若为浓缩糖浆，则说明可食但不宜单独饮用。

当图像内容在训练数据中常见时，此类用例对模型相对简单。但全球南方常见物品在训练数据中代表性不足，研究显示模型不仅准确率低，还在具体性和偏见上表现差。这表明需超越单纯准确率的细致指标。我们开发的此类文化特定数据集，既挑战当前模型，也成为评估系统文化能力的关键基准。

全球合作：我们的伙伴模式

我们与全球学术、行业和政府研究者合作，开发文化根植的基准，并分析其对视觉-语言模型行为的洞见。区域伙伴凭借深厚文化知识，在共享框架内定义本地‘可接受风险与适当性’，而非我们单一定义。本地专长指导全过程：设计真实文本+图像提示、同一文化语境验证，以及定义适当模型响应。目前承诺伙伴包括AI Verify（新加坡）、IIT Madras的CeRAI（印度）、首尔国立大学（SNU）& Korea-AISI（韩国）、Microsoft Office of Responsible AI、Microsoft Research India，以及Google Trust & Safety和Google DeepMind。数据集已含四地7000+经伙伴精心开发验证的文本+图像提示，每英文提示至少译为一本地语言（如印度Hindi和Tamil）。目标是覆盖东亚和南亚至少六地区，译成至少11种方言，并包含原生方言示例。

作为区域伙伴如何贡献

若想作为区域伙伴参与，扩展基准代表性或提升本地影响力，请加入工作组。

过去里程碑

2026年2月19-20日：在新德里AI Impact Summit展示初步发现

即将里程碑

2026年4月：发布多语言MSTS数据的Jailbreak 1.0论文
2026年6月：发布数据集子集和学术论文

链接：

多模态工作流
加入工作组

LLM使用披露：我们使用LLM建议博客广义章节、评估表述清晰度、反馈针对MLCommons受众的调整，并确保内容与最新内部规划一致。未用AI工具生成文本或图表。

本文来自 MLC 博客，赢政天下（winzheng.com）进行了全文翻译。点击这里查看原文如果转载中文，请注明出处，谢谢支持！

全球标准，本地真实：亚太多语言多模态AI安全基准试点

性能与代表性差距

理解文化特定风险

聚焦多模态用例

全球合作：我们的伙伴模式

相关测评

MLC MLCommons 为可辩护越狱基准测试奠基

MLC AILuminate越狱基准V05发布：AI模型安全排行大洗牌

MLC AI可靠性地图：规则与环境

MLC 新鲜基准，可靠分数：引入AI风险评估的持续提示管理