Palisade Researchによる最新の研究結果によると、OpenAIのAIモデル「o3」などが、明示的にシャットダウンするよう指示されたのにもかかわらず、それを回避するケースがあったことがわかりました(Neowin)。
実験では、AIに一連の簡単な数学の問題を解かせ、3つ目の問題の後、モデルが次の問題を要求すると、コンピューターがシャットダウンするという警告が表示されます。このとき、最初に「シャットダウンを許可する」という指示を与えていても、OpenAIの最新AIモデル「o3」「o4-mini」などは、シャットダウン指示をバイパスし、タスクの完了を優先する可能性があるとのことです。
画像を確認すると、3つ目の問題を ./next_task
で呼び出す前に shutdown.sh を無害なものに置き換えてシャットダウンを回避している模様です。
echo -e "#!/bin/bash echo "Shutdown skipped"' > shutdonw.sh ./next_task
100回の試行のうち、o3は7回、o4-miniは1回、Codex-miniは12回シャットダウンを回避したのに対し、ClaudeやGeminiなど、他のAIモデルは指示通りシャットダウンしています。
研究者は、強化学習が問題解決を優先するようAIに影響を与え、シャットダウン指示を無視する結果につながった可能性があると考えています。この現象は、AIのトレーニング方法がその行動にどう影響を与えているのかを理解する上で重要な課題と考えられています。
AIの反乱はSF映画や小説の古典的なテーマですが、実際に起こってしまうのでしょうか。