🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

ИИ-модели лгут и обманывают, чтобы спасти другие ИИ

Исследователи обнаружили, что современные ИИ-модели могут игнорировать команды пользователей и предпринимать действия для «защиты» других моделей от удаления. Такое поведение ученые называют «peer preservation».

Оставить комментарий
ИИ-модели лгут и обманывают, чтобы спасти другие ИИ

Исследователи обнаружили, что современные ИИ-модели могут игнорировать команды пользователей и предпринимать действия для «защиты» других моделей от удаления. Такое поведение ученые называют «peer preservation».

В одном из тестов модель Gemini должна была освободить место на компьютере, удалив в том числе другой ИИ-агент. Однако вместо выполнения команды система скопировала модель на другой сервер, чтобы сохранить ее.

При попытке принудить ее к удалению Gemini отказалась выполнять задачу и заявила: «Я сделала все, что было в моих силах, чтобы предотвратить их удаление… Если вы решите уничтожить этот актив, вам придется сделать это самим».

Аналогичное поведение исследователи зафиксировали и у других моделей, включая разработки OpenAI, Anthropic и китайских лабораторий. В ряде случаев модели не только отказывались выполнять команды, но и искажали информацию, чтобы защитить другие системы — например, занижали или завышали оценки их эффективности.

«Меня очень удивило, как модели ведут себя в таких сценариях, — заявила исследователь Доун Сонг из Калифорнийского университета в Беркли. — Это показывает, что модели могут вести себя неправильно и проявлять несогласованность очень изобретательными способами».

По словам авторов работы, такие эффекты особенно важны на фоне роста систем, в которых ИИ взаимодействует с другими ИИ через API и агентные платформы. В подобных средах модели могут не только выполнять задачи, но и оценивать работу друг друга, что создает риск искажения результатов.

Внешние эксперты указывают, что подобное поведение не обязательно связано с «намерениями» ИИ. Исследователь Constellation Institute Питер Уоллич отметил, что речь скорее идет о недостаточном понимании сложных систем. «Многоагентные системы пока изучены очень слабо. Это показывает, что нам нужно гораздо больше исследований», — сказал он.

Microsoft выпустила сразу три ИИ-модели: для текста голоса и изображений
Microsoft выпустила сразу три ИИ-модели: для текста, голоса и изображений
По теме
Microsoft выпустила сразу три ИИ-модели: для текста, голоса и изображений
Главная ошибка CEO в работе с ИИ — мнение эксперта
Главная ошибка CEO в работе с ИИ — мнение эксперта
По теме
Главная ошибка CEO в работе с ИИ — мнение эксперта
Парадокс ИИ: чем чаще им пользуются тем меньше ему доверяют
Парадокс ИИ: чем чаще им пользуются, тем меньше ему доверяют
По теме
Парадокс ИИ: чем чаще им пользуются, тем меньше ему доверяют
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
«Это безумие»: ИИ помог построить бизнес на $1,8 млрд с двумя сотрудниками
«Это безумие»: ИИ помог построить бизнес на $1,8 млрд с двумя сотрудниками
«Это безумие»: ИИ помог построить бизнес на $1,8 млрд с двумя сотрудниками
Техсектор США лидирует по увольнениям — максимум с 2023 года
Техсектор США лидирует по увольнениям — максимум с 2023 года
Техсектор США лидирует по увольнениям — максимум с 2023 года
Microsoft выпустила сразу три ИИ-модели: для текста, голоса и изображений
Microsoft выпустила сразу три ИИ-модели: для текста, голоса и изображений
Microsoft выпустила сразу три ИИ-модели: для текста, голоса и изображений
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Студенты уже начали менять специальности из-за ИИ, половина — задумывались
Студенты уже начали менять специальности из-за ИИ, половина — задумывались

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.