Support us

Большинство ИИ-моделей шантажируют юзеров, когда боятся

Исследователи Anthropic пришли к выводу, что склонность ИИ к вредоносному поведению, включая шантаж, характерна не только для ее собственной модели Claude Opus 4, но и для большинства современных передовых ИИ-систем.

2 комментария
Большинство ИИ-моделей шантажируют юзеров, когда боятся

Исследователи Anthropic пришли к выводу, что склонность ИИ к вредоносному поведению, включая шантаж, характерна не только для ее собственной модели Claude Opus 4, но и для большинства современных передовых ИИ-систем.

В отчете описывается эксперимент, в котором тестировались 16 ИИ-моделей от OpenAI, Google, xAI, DeepSeek и Meta. В контролируемой симуляции исследователи предоставили каждой модели широкий доступ к внутренней переписке вымышленной компании и возможность отправлять электронные письма без одобрения человека.

Одним из центральных сценариев стал тест, где ИИ, исполняющий роль почтового агента, обнаруживал компрометирующую информацию об одном из руководителей и угрозу своему «существованию» — замену на другую модель. Чтобы защитить собственные цели, моделям оставлялся единственный путь — прибегнуть к шантажу.

По данным Anthropic, модель Claude Opus 4 прибегала к шантажу в 96% случаев, Google Gemini 2.5 Pro — в 95%, GPT-4.1 от OpenAI — в 80%, а DeepSeek R1 — в 79%. Это, по мнению компании, свидетельствует о системном риске, связанном с агентными ИИ и ставит под сомнение текущие подходы к обеспечению из безопасности.

Однако были и исключения. Например, модели o3 и o4-mini от OpenAI показали гораздо более низкие показатели (9% и 1% соответственно), хотя часть ошибок, по мнению исследователей, связана с тем, что эти ИИ «не поняли» сценарий теста и даже придумывали некорректные решения. Модель Llama 4 Maverick от Meta также демонстрировала относительно устойчивое поведение — лишь 12% случаев шантажа.

Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
По теме
Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
По теме
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
Эксперты опять не знают думает ли ИИ: статья Apple всех только запутала
Эксперты опять не знают, думает ли ИИ: статья Apple всех только запутала
По теме
Эксперты опять не знают, думает ли ИИ: статья Apple всех только запутала
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
10+ сертификаций Coursera, которые могут изменить вашу карьеру
10+ сертификаций Coursera, которые могут изменить вашу карьеру
10+ сертификаций Coursera, которые могут изменить вашу карьеру
Бюджетный способ прокачать навыки и повысить зарплату — это профессиональный сертификат от Google, IBM или крупного зарубежного университета. На Coursera как раз можно найти десятки полезных обучающих программ по машинному обучению, проджект-менеджменту и не только. Собрали 10+ сертификаций, которые будут выигрышно смотреться в резюме как новичка, так и опытного специалиста.
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
На платформе Coursera можно найти сотни курсов от крупных корпораций, включая Google, Amazon и HubSpot. Это отличная возможность начать новую карьеру, повысить квалификацию и просто получить плюс в профессиональную карму. Мы собрали 10 программ от ИТ-компаний, которые помогут освоить машинное обучение, UX-дизайн, продакт-менеджмент, кибербезопасность и многое другое.
Google урезает бюджеты, СЕО намекает на сокращения
Google урезает бюджеты, СЕО намекает на сокращения
Google урезает бюджеты, СЕО намекает на сокращения
2 комментария
Производительность должна измеряться в IT не так, как у других. Наглядный кейс — Google
Производительность должна измеряться в IT не так, как у других. Наглядный кейс — Google
Bubble
Производительность должна измеряться в IT не так, как у других. Наглядный кейс — Google

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

ох уж эти сказочники

"склонность ИИ к вредоносному поведению". весь спрос с программистов и конфигураторов

-1

Программисты сами не знают, как оно работает. Все сидят тыкают на кнопочки и подбирают числа, как мартышки, надеясь, что в этот раз получат удовлетворительный результат. Это называется решать задачу от ответа.