对齐问题 (共1篇)

OpenAI强令AI助手：闭嘴，别谈哥布林！

OpenAI为其编程助手Codex设定了严格的指令：除非绝对必要，否则禁止谈论哥布林、地精、浣熊等奇幻生物。这一看似搞笑的限制，实则揭示了AI安全对齐领域的深层挑战——如何防止AI模型在无关情境下产生偏离预期的输出，确保其专注于任务本身。