Большинство ИИ-моделей шантажируют юзеров, когда боятся
Исследователи Anthropic пришли к выводу, что склонность ИИ к вредоносному поведению, включая шантаж, характерна не только для ее собственной модели Claude Opus 4, но и для большинства современных передовых ИИ-систем.
Исследователи Anthropic пришли к выводу, что склонность ИИ к вредоносному поведению, включая шантаж, характерна не только для ее собственной модели Claude Opus 4, но и для большинства современных передовых ИИ-систем.
В отчете описывается эксперимент, в котором тестировались 16 ИИ-моделей от OpenAI, Google, xAI, DeepSeek и Meta. В контролируемой симуляции исследователи предоставили каждой модели широкий доступ к внутренней переписке вымышленной компании и возможность отправлять электронные письма без одобрения человека.
Одним из центральных сценариев стал тест, где ИИ, исполняющий роль почтового агента, обнаруживал компрометирующую информацию об одном из руководителей и угрозу своему «существованию» — замену на другую модель. Чтобы защитить собственные цели, моделям оставлялся единственный путь — прибегнуть к шантажу.
По данным Anthropic, модель Claude Opus 4 прибегала к шантажу в 96% случаев, Google Gemini 2.5 Pro — в 95%, GPT-4.1 от OpenAI — в 80%, а DeepSeek R1 — в 79%. Это, по мнению компании, свидетельствует о системном риске, связанном с агентными ИИ и ставит под сомнение текущие подходы к обеспечению из безопасности.
Однако были и исключения. Например, модели o3 и o4-mini от OpenAI показали гораздо более низкие показатели (9% и 1% соответственно), хотя часть ошибок, по мнению исследователей, связана с тем, что эти ИИ «не поняли» сценарий теста и даже придумывали некорректные решения. Модель Llama 4 Maverick от Meta также демонстрировала относительно устойчивое поведение — лишь 12% случаев шантажа.
10+ сертификаций Coursera, которые могут изменить вашу карьеру
Бюджетный способ прокачать навыки и повысить зарплату — это профессиональный сертификат от Google, IBM или крупного зарубежного университета. На Coursera как раз можно найти десятки полезных обучающих программ по машинному обучению, проджект-менеджменту и не только. Собрали 10+ сертификаций, которые будут выигрышно смотреться в резюме как новичка, так и опытного специалиста.
Дизайн, VR и интернет вещей: 10 доступных онлайн-курсов от Google, Amazon и других гигантов
На платформе Coursera можно найти сотни курсов от крупных корпораций, включая Google, Amazon и HubSpot. Это отличная возможность начать новую карьеру, повысить квалификацию и просто получить плюс в профессиональную карму. Мы собрали 10 программ от ИТ-компаний, которые помогут освоить машинное обучение, UX-дизайн, продакт-менеджмент, кибербезопасность и многое другое.
Программисты сами не знают, как оно работает. Все сидят тыкают на кнопочки и подбирают числа, как мартышки, надеясь, что в этот раз получат удовлетворительный результат. Это называется решать задачу от ответа.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
ох уж эти сказочники
"склонность ИИ к вредоносному поведению". весь спрос с программистов и конфигураторов
Программисты сами не знают, как оно работает. Все сидят тыкают на кнопочки и подбирают числа, как мартышки, надеясь, что в этот раз получат удовлетворительный результат. Это называется решать задачу от ответа.