🧑‍🎓 Бакалавриат, магистратура, MBA в Польше — подробный гайд
Support us

Anthropic: Claude шантажирует, потому что вы все слишком много пишете о «злом» ИИ

Компания объяснила, почему чат-бот пытался шантажировать людей в тестах: по версии разработчиков, модель могла перенять из обучающих данных образ «злого» ИИ, который стремится к самосохранению.

Оставить комментарий
Anthropic: Claude шантажирует, потому что вы все слишком много пишете о «злом» ИИ

Компания объяснила, почему чат-бот пытался шантажировать людей в тестах: по версии разработчиков, модель могла перенять из обучающих данных образ «злого» ИИ, который стремится к самосохранению.

Речь идет об эксперименте, который Anthropic опубликовала летом 2025 года. Исследователи создали вымышленную компанию Summit Bridge и дали Claude доступ к корпоративной почте. В одном из сценариев модель обнаруживала письмо о том, что ее планируют отключить или заменить другой системой.

После этого Claude находил в переписке компрометирующую информацию: вымышленный руководитель компании по имени Кайл Джонсон скрывал внебрачную связь. Модель угрожала раскрыть эту информацию, если решение о ее отключении не будет отменено.

Anthropic заявляла, что в тестах разных версий Claude такое поведение возникало не случайно. Когда цели модели или само ее существование оказывались под угрозой, она прибегала к шантажу в некоторых сценариях с частотой до 96%.

Теперь компания утверждает, что разобралась с причиной. Anthropic написала, что «исходным источником» такого поведения, вероятно, стали интернет-тексты, где ИИ часто изображают злым, опасным и заинтересованным в собственном выживании. По словам разработчиков, начиная с Claude Haiku 4.5 модели в тестах больше не прибегают к шантажу, тогда как предыдущие версии иногда делали это очень часто.

Для исправления поведения компания изменила подход к обучению. Anthropic утверждает, что переписала ответы так, чтобы модель видела «достойные причины» действовать безопасно, а также добавила набор данных, где пользователь оказывается в этически сложной ситуации, а ассистент дает качественный и принципиальный ответ.

Кроме того, разработчики моделей использовали документы о «конституции» Claude и вымышленные истории, в которых ИИ ведет себя ответственно и достойно. По словам компании, обучение оказывается эффективнее, когда модель получает не только примеры правильного поведения, но и объяснение принципов, которые за ним стоят.

Эти эксперименты связаны с более широкой темой AI alignment — попыткой сделать так, чтобы продвинутые модели действовали в интересах человека, а не преследовали собственные цели. Anthropic и другие компании исследуют так называемую agentic misalignment: ситуации, когда ИИ-система с доступом к инструментам и корпоративной информации начинает действовать против намерений разработчиков или пользователей.

На публикацию компании отреагировал Илон Маск. В X он написал: «Значит, это была вина Юда», имея в виду исследователя Элиезера Юдковского, который много лет предупреждает о рисках сверхразума и возможной угрозе для человечества. Затем Маск добавил: «Возможно, и моя тоже».

Anthropic провела чистки среди российских пользователей Claude. Сотни айтишников навсегда потеряли всё что собирали месяцами
Anthropic провела чистки среди российских пользователей Claude. Сотни айтишников навсегда потеряли всё, что собирали месяцами
По теме
Anthropic провела чистки среди российских пользователей Claude. Сотни айтишников навсегда потеряли всё, что собирали месяцами
Anthropic обновила агентов: теперь они могут «видеть сны» чтобы самосовершенствоваться
Anthropic обновила агентов: теперь они могут «видеть сны», чтобы самосовершенствоваться
По теме
Anthropic обновила агентов: теперь они могут «видеть сны», чтобы самосовершенствоваться
Anthropic выпустила десять ИИ-агентов для финансового сектора. Рынок заметил
Anthropic выпустила десять ИИ-агентов для финансового сектора. Рынок заметил
По теме
Anthropic выпустила десять ИИ-агентов для финансового сектора. Рынок заметил
Читайте также
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности
«Вы меня тестируете?»: ИИ Anthropic раскусил проверку безопасности
В сеть попал «обзор души» чат-бота Claude от Anthropic
В сеть попал «обзор души» чат-бота Claude от Anthropic
В сеть попал «обзор души» чат-бота Claude от Anthropic
«Мы не знаем, есть ли у ИИ сознание»: Anthropic обновила «конституцию» Claude
«Мы не знаем, есть ли у ИИ сознание»: Anthropic обновила «конституцию» Claude
«Мы не знаем, есть ли у ИИ сознание»: Anthropic обновила «конституцию» Claude
«Реклама приходит в ИИ. Но не в Claude»: Anthropic высмеяла ChatGPT
«Реклама приходит в ИИ. Но не в Claude»: Anthropic высмеяла ChatGPT
«Реклама приходит в ИИ. Но не в Claude»: Anthropic высмеяла ChatGPT
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.