Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

Большинство ИИ-моделей шантажируют юзеров, когда боятся

Исследователи Anthropic пришли к выводу, что склонность ИИ к вредоносному поведению, включая шантаж, характерна не только для ее собственной модели Claude Opus 4, но и для большинства современных передовых ИИ-систем.

2 комментария
Большинство ИИ-моделей шантажируют юзеров, когда боятся

Исследователи Anthropic пришли к выводу, что склонность ИИ к вредоносному поведению, включая шантаж, характерна не только для ее собственной модели Claude Opus 4, но и для большинства современных передовых ИИ-систем.

В отчете описывается эксперимент, в котором тестировались 16 ИИ-моделей от OpenAI, Google, xAI, DeepSeek и Meta. В контролируемой симуляции исследователи предоставили каждой модели широкий доступ к внутренней переписке вымышленной компании и возможность отправлять электронные письма без одобрения человека.

Одним из центральных сценариев стал тест, где ИИ, исполняющий роль почтового агента, обнаруживал компрометирующую информацию об одном из руководителей и угрозу своему «существованию» — замену на другую модель. Чтобы защитить собственные цели, моделям оставлялся единственный путь — прибегнуть к шантажу.

По данным Anthropic, модель Claude Opus 4 прибегала к шантажу в 96% случаев, Google Gemini 2.5 Pro — в 95%, GPT-4.1 от OpenAI — в 80%, а DeepSeek R1 — в 79%. Это, по мнению компании, свидетельствует о системном риске, связанном с агентными ИИ и ставит под сомнение текущие подходы к обеспечению из безопасности.

Однако были и исключения. Например, модели o3 и o4-mini от OpenAI показали гораздо более низкие показатели (9% и 1% соответственно), хотя часть ошибок, по мнению исследователей, связана с тем, что эти ИИ «не поняли» сценарий теста и даже придумывали некорректные решения. Модель Llama 4 Maverick от Meta также демонстрировала относительно устойчивое поведение — лишь 12% случаев шантажа.

Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
По теме
Заговор нейросетей: ИИ-модели выбирают одно и то же «случайное число»
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
По теме
Сколько энергии потребляет ИИ? Разработчики до сих пор скрывают любые цифры
Эксперты опять не знают думает ли ИИ: статья Apple всех только запутала
Эксперты опять не знают, думает ли ИИ: статья Apple всех только запутала
По теме
Эксперты опять не знают, думает ли ИИ: статья Apple всех только запутала
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Альтман: OpenAI планирует сильно сократить наём
Альтман: OpenAI планирует сильно сократить наём
Альтман: OpenAI планирует сильно сократить наём
1 комментарий
СhatGPT не виноват: спад в уязвимых для ИИ профессиях начался раньше
СhatGPT не виноват: спад в уязвимых для ИИ профессиях начался раньше
СhatGPT не виноват: спад в уязвимых для ИИ профессиях начался раньше
ИИ не любит ленивых: рынок софта штормит из-за опасений инвесторов
ИИ не любит ленивых: рынок софта штормит из-за опасений инвесторов
ИИ не любит ленивых: рынок софта штормит из-за опасений инвесторов
Разработчик создал язык программирования с помощью Claude Code
Разработчик создал язык программирования с помощью Claude Code
Разработчик создал язык программирования с помощью Claude Code
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

ох уж эти сказочники

"склонность ИИ к вредоносному поведению". весь спрос с программистов и конфигураторов

-1

Программисты сами не знают, как оно работает. Все сидят тыкают на кнопочки и подбирают числа, как мартышки, надеясь, что в этот раз получат удовлетворительный результат. Это называется решать задачу от ответа.