200 инженеров в Варшаве обсуждают дыры в пайплайнах. Без вас?
Support us

Большинство ИИ-моделей шантажируют юзеров, когда боятся

Исследователи Anthropic пришли к выводу, что склонность ИИ к вредоносному поведению, включая шантаж, характерна не только для ее собственной модели Claude Opus 4, но и для большинства современных передовых ИИ-систем.

2 комментария
Большинство ИИ-моделей шантажируют юзеров, когда боятся

Исследователи Anthropic пришли к выводу, что склонность ИИ к вредоносному поведению, включая шантаж, характерна не только для ее собственной модели Claude Opus 4, но и для большинства современных передовых ИИ-систем.

В отчете описывается эксперимент, в котором тестировались 16 ИИ-моделей от OpenAI, Google, xAI, DeepSeek и Meta. В контролируемой симуляции исследователи предоставили каждой модели широкий доступ к внутренней переписке вымышленной компании и возможность отправлять электронные письма без одобрения человека.

Одним из центральных сценариев стал тест, где ИИ, исполняющий роль почтового агента, обнаруживал компрометирующую информацию об одном из руководителей и угрозу своему «существованию» — замену на другую модель. Чтобы защитить собственные цели, моделям оставлялся единственный путь — прибегнуть к шантажу.

По данным Anthropic, модель Claude Opus 4 прибегала к шантажу в 96% случаев, Google Gemini 2.5 Pro — в 95%, GPT-4.1 от OpenAI — в 80%, а DeepSeek R1 — в 79%. Это, по мнению компании, свидетельствует о системном риске, связанном с агентными ИИ и ставит под сомнение текущие подходы к обеспечению из безопасности.

Однако были и исключения. Например, модели o3 и o4-mini от OpenAI показали гораздо более низкие показатели (9% и 1% соответственно), хотя часть ошибок, по мнению исследователей, связана с тем, что эти ИИ «не поняли» сценарий теста и даже придумывали некорректные решения. Модель Llama 4 Maverick от Meta также демонстрировала относительно устойчивое поведение — лишь 12% случаев шантажа.

Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
По теме
Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
По теме
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
Эксперты опять не знают думает ли ИИ: статья Apple всех только запутала
Эксперты опять не знают, думает ли ИИ: статья Apple всех только запутала
По теме
Эксперты опять не знают, думает ли ИИ: статья Apple всех только запутала
Читайте также
«Мы упустили момент Оппенгеймера для ИИ» — мнение эксперта
«Мы упустили момент Оппенгеймера для ИИ» — мнение эксперта
«Мы упустили момент Оппенгеймера для ИИ» — мнение эксперта
В США школьный ИИ принял за пистолет пачку чипсов и вызвал полицию
В США школьный ИИ принял за пистолет пачку чипсов и вызвал полицию
В США школьный ИИ принял за пистолет пачку чипсов и вызвал полицию
Anthropic, OpenAI и Perplexity рвутся в Индию — она становится важным компонентом глобальной ИИ-гонки
Anthropic, OpenAI и Perplexity рвутся в Индию — она становится важным компонентом глобальной ИИ-гонки
Anthropic, OpenAI и Perplexity рвутся в Индию — она становится важным компонентом глобальной ИИ-гонки
Google разрешила разработчикам обходить комиссию Play Store. Но не всем и, возможно, на время
Google разрешила разработчикам обходить комиссию Play Store. Но не всем и, возможно, на время
Google разрешила разработчикам обходить комиссию Play Store. Но не всем и, возможно, на время

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

ох уж эти сказочники

"склонность ИИ к вредоносному поведению". весь спрос с программистов и конфигураторов

-1

Программисты сами не знают, как оно работает. Все сидят тыкают на кнопочки и подбирают числа, как мартышки, надеясь, что в этот раз получат удовлетворительный результат. Это называется решать задачу от ответа.