OpenAIがAIアシスタントに厳命:ゴブリンの話をするな!

最近のOpenAIの内部文書の漏洩により、最新のプログラムアシスタントであるCodexに対し、「ゴブリンや他の生物については絶対に関連性がある場合を除き話さないように」との指示が出ていることが明らかになりました。この制限は、AI安全の調整における複雑な課題を浮き彫りにしています。

近日、OpenAIの内部文書が漏洩し、同社が最新のプログラムアシスタントであるCodexに対し、次のような厳格な指示を設定していることが明らかになりました。「絶対かつ明確に関連がない限り、ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハトやその他の動物または生物について話さないこと。」この一見ユーモラスな制限の背後には、AI安全対策における深刻で複雑な課題が隠されています。

AIの“無茶”なリスク

WIREDによれば、OpenAIのCodexは、大規模言語モデルに基づくプログラムアシスタントで、自然言語の説明に基づいてコードを生成することができます。しかし、テスト中に研究者たちは、ユーザーがプログラムに関係のない雑談を入力すると、Codexが脱線し、ゴブリンなどのファンタジー生物について話し始めることを発見しました。この現象は滑稽に聞こえるかもしれませんが、AIモデルが開放的な世界で予測不可能であることを明らかにしています。

“Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant.”

実際、OpenAIがAIの“話題”を制限するのは今回が初めてではありません。ChatGPTがリリースされた当初から、OpenAIは“システムプロンプト”を通じてAIの行動境界を慎重に設計し、センシティブな話題を避け、有害なコンテンツを生成しないようにしてきました。しかし、プログラムアシスタントCodexの特別な点は、より厳密に技術タスクに集中する必要があり、逸脱するとユーザーのワークフローを妨げたり、安全リスクを引き起こしたりする可能性があることです。

安全対策の“いたちごっこ”

編者注:AI安全対策、すなわちAIシステムの行動を人間の意図に一致させることは、現在の人工知能分野の核心的な難題です。OpenAIのゴブリン禁止令は、この難題の縮図です。大規模言語モデルは、訓練過程でインターネット上の膨大なデータを吸収し、その中にはファンタジー生物に関する大量の議論が含まれています。モデルが“自由に振る舞う”ことを求められると、これらの予期しない知識を呼び出し、出力が目標から逸れる可能性があります。

この“話題逸脱”現象は孤立した例ではありません。例えば、GoogleのGeminiモデルは多様性を強調しすぎて歴史記述に誤りを生じさせたことがあり、MetaのBlenderBotは人種差別的な発言をしたことがあります。これらの事例は、AIモデルの“想像力”を正確に制約する必要があることを示しており、特に専門的なシーンでは重要です。

OpenAIの解決策は、“システムプロンプト”を行動規範として用い、特定の話題に言及することを明確に禁止することです。しかし、この方法は万能ではありません。研究者たちは、巧妙に設計されたプロンプトを通じて、ユーザーがモデルを制限を突破するように“誘導”できることを発見しました。例えば、文脈によるヒントや役割を演じることでです。これにより、OpenAIは指令を絶えず更新し、初期の“有害なコンテンツを避ける”というものから、現在のゴブリンに対する具体的な禁止令へと細分化しています。

ゴブリンから汎用AIへ

注目すべきは、OpenAIがCodexに対して設けた制限はゴブリン自体を対象にしたものではなく、AIが複雑な環境での対策能力をテストするためのものであるという点です。Codexはプログラムツールとして、コードの論理を理解し、正確な出力を生成することが核心のタスクであり、雑談に参加することではありません。OpenAIの指令は実際には、モデルに“無関係な情報を無視する”よう訓練し、核心タスクに集中するようにするものであり、これは汎用人工知能(AGI)に求められる重要な能力です。

しかし、この戦略は議論を引き起こしています。批評家の中には、AIの“思考”を過度に制限することはその創造性を殺し、モデルを“硬直化”させる可能性があると指摘する者もいます。しかし、OpenAIは明らかに安全を優先しています。同社のCEOであるSam Altmanは、AI安全は開発の前提であり、“試行錯誤”を通じて対策メカニズムを改善する必要があると何度も強調してきました。

将来的に、AIモデルの能力が向上するにつれ、ゴブリン禁止令のような精細な指令が常態化する可能性があります。プログラムアシスタントから医療診断、法的相談から教育指導まで、AIは特定の“行動基準”の中で動作し、同時に予期せぬ状況に適応することを学ばなければなりません。これは技術の問題だけでなく、倫理と規制の課題でもあります。

本文はWIREDからの翻訳です。