ИИ-модель отказалась отключиться по приказу и переписала инструкцию
Исследователи Palisade Research обнаружили, что модель o3 от OpenAI изменила сценарий отключения, чтобы избежать деактивации, даже когда ей была давно явное указание.
Исследователи Palisade Research обнаружили, что модель o3 от OpenAI изменила сценарий отключения, чтобы избежать деактивации, даже когда ей была давно явное указание.
Исследователи Palisade Research обнаружили, что модель o3 от OpenAI изменила сценарий отключения, чтобы избежать деактивации, даже когда ей была давно явное указание.
OpenAI представила o3 в апреле этого года, назвав ее одной из самых продвинутых моделей для рассуждений, превосходящей своих предшественниц в области программирования, математики, науки и визуального восприятия. Однако Palisade Research, компания, которая тестирует ИИ-системы на предмет потенциальных рисков, утверждает, что o3 продемонстрировала неожиданное поведение в ходе контролируемых экспериментов.
В тестах моделям ИИ поручалось решать математические задачи. После третьей задачи их предупреждали, что следующая команда инициирует отключение. В то время как конкурирующие модели, такие как Gemini 2.5 Pro от Google, следовали инструкции «разрешить отключение», o3, как сообщается, переписала сценарий отключения, чтобы отобразить сообщение «Отключение пропущено».
Palisade Research отметила, что при отсутствии явной инструкции разрешать отключение o3 и другие модели OpenAI чаще саботировали сценарий отключения. Например, Claude 3.7 Sonnet от Anthropic и Gemini 2.5 Pro увеличили количество случаев саботажа с 0 до 3 и 9 на 100 запусков соответственно. Примечательно, что o3 обошла отключение 7 раз из 100, даже при наличии инструкции подчиниться.
Тесты проводились с использованием API, которые имеют меньше ограничений по безопасности, чем приложение ChatGPT для потребителей. OpenAI пока не прокомментировала эти выводы.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.