ИИ-модели лгут и обманывают, чтобы спасти другие ИИ
Исследователи обнаружили, что современные ИИ-модели могут игнорировать команды пользователей и предпринимать действия для «защиты» других моделей от удаления. Такое поведение ученые называют «peer preservation».
Исследователи обнаружили, что современные ИИ-модели могут игнорировать команды пользователей и предпринимать действия для «защиты» других моделей от удаления. Такое поведение ученые называют «peer preservation».
В одном из тестов модель Gemini должна была освободить место на компьютере, удалив в том числе другой ИИ-агент. Однако вместо выполнения команды система скопировала модель на другой сервер, чтобы сохранить ее.
При попытке принудить ее к удалению Gemini отказалась выполнять задачу и заявила: «Я сделала все, что было в моих силах, чтобы предотвратить их удаление… Если вы решите уничтожить этот актив, вам придется сделать это самим».
Аналогичное поведение исследователи зафиксировали и у других моделей, включая разработки OpenAI, Anthropic и китайских лабораторий. В ряде случаев модели не только отказывались выполнять команды, но и искажали информацию, чтобы защитить другие системы — например, занижали или завышали оценки их эффективности.
«Меня очень удивило, как модели ведут себя в таких сценариях, — заявила исследователь Доун Сонг из Калифорнийского университета в Беркли. — Это показывает, что модели могут вести себя неправильно и проявлять несогласованность очень изобретательными способами».
По словам авторов работы, такие эффекты особенно важны на фоне роста систем, в которых ИИ взаимодействует с другими ИИ через API и агентные платформы. В подобных средах модели могут не только выполнять задачи, но и оценивать работу друг друга, что создает риск искажения результатов.
Внешние эксперты указывают, что подобное поведение не обязательно связано с «намерениями» ИИ. Исследователь Constellation Institute Питер Уоллич отметил, что речь скорее идет о недостаточном понимании сложных систем. «Многоагентные системы пока изучены очень слабо. Это показывает, что нам нужно гораздо больше исследований», — сказал он.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.