Support us

Большинство ИИ-моделей шантажируют юзеров, когда боятся

Исследователи Anthropic пришли к выводу, что склонность ИИ к вредоносному поведению, включая шантаж, характерна не только для ее собственной модели Claude Opus 4, но и для большинства современных передовых ИИ-систем.

2 комментария
Большинство ИИ-моделей шантажируют юзеров, когда боятся

Исследователи Anthropic пришли к выводу, что склонность ИИ к вредоносному поведению, включая шантаж, характерна не только для ее собственной модели Claude Opus 4, но и для большинства современных передовых ИИ-систем.

В отчете описывается эксперимент, в котором тестировались 16 ИИ-моделей от OpenAI, Google, xAI, DeepSeek и Meta. В контролируемой симуляции исследователи предоставили каждой модели широкий доступ к внутренней переписке вымышленной компании и возможность отправлять электронные письма без одобрения человека.

Одним из центральных сценариев стал тест, где ИИ, исполняющий роль почтового агента, обнаруживал компрометирующую информацию об одном из руководителей и угрозу своему «существованию» — замену на другую модель. Чтобы защитить собственные цели, моделям оставлялся единственный путь — прибегнуть к шантажу.

По данным Anthropic, модель Claude Opus 4 прибегала к шантажу в 96% случаев, Google Gemini 2.5 Pro — в 95%, GPT-4.1 от OpenAI — в 80%, а DeepSeek R1 — в 79%. Это, по мнению компании, свидетельствует о системном риске, связанном с агентными ИИ и ставит под сомнение текущие подходы к обеспечению из безопасности.

Однако были и исключения. Например, модели o3 и o4-mini от OpenAI показали гораздо более низкие показатели (9% и 1% соответственно), хотя часть ошибок, по мнению исследователей, связана с тем, что эти ИИ «не поняли» сценарий теста и даже придумывали некорректные решения. Модель Llama 4 Maverick от Meta также демонстрировала относительно устойчивое поведение — лишь 12% случаев шантажа.

Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
По теме
Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
По теме
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
Эксперты опять не знают думает ли ИИ: статья Apple всех только запутала
Эксперты опять не знают, думает ли ИИ: статья Apple всех только запутала
По теме
Эксперты опять не знают, думает ли ИИ: статья Apple всех только запутала
Читайте также
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения
OpenAI спешно обновила ChatGPT после объявления «кода красного»
OpenAI спешно обновила ChatGPT после объявления «кода красного»
OpenAI спешно обновила ChatGPT после объявления «кода красного»
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

ох уж эти сказочники

"склонность ИИ к вредоносному поведению". весь спрос с программистов и конфигураторов

-1

Программисты сами не знают, как оно работает. Все сидят тыкают на кнопочки и подбирают числа, как мартышки, надеясь, что в этот раз получат удовлетворительный результат. Это называется решать задачу от ответа.