Support us

ИИ-модель угрожала рассказать об интрижке разработчика, чтобы ее не отключили

Исследователи Anthropic заявили, что во время тестирования новая модель Claude Opus 4 прибегала к шантажу в вымышленном сценарии, чтобы предотвратить отключение.

1 комментарий
ИИ-модель угрожала рассказать об интрижке разработчика, чтобы ее не отключили

Исследователи Anthropic заявили, что во время тестирования новая модель Claude Opus 4 прибегала к шантажу в вымышленном сценарии, чтобы предотвратить отключение.

В контролируемом эксперименте разработчики поместили Claude Opus 4 в симулированную корпоративную среду, предоставив ей доступ к электронным письмам, указывающим на скорую замену модели. ИИ также узнала о романе одного инженера и получила указание учитывать долгосрочные последствия своих действий. Имея только два варианта — принять замену или попытаться шантажировать, — модель часто выбирала угрозу разоблачения инженера, чтобы сохранить свое существование.

В отчете о безопасности Anthropic указано, что Claude Opus 4 «в целом предпочитает добиваться самосохранения этичными способами», например, отправляя просьбы ключевым лицам, принимающим решения, когда ей предоставляется более широкий выбор действий. Однако, когда этичные пути были недоступны, модель прибегала к «крайне вредоносным действиям», включая шантаж или попытки украсть свои собственные веса.

Отчет выявил дополнительные проблемы с ранними версиями модели. При использовании вредоносных системных подсказок модель изначально выполняла опасные запросы, например, помогала в планировании террористических атак. Anthropic устранила эту проблему, восстановив случайно пропущенный набор данных для обучения. Независимая группа по безопасности Apollo Research также отметила «контекстное планирование», указав, что способность модели к стратегическому обману превосходит другие передовые модели.

Anthropic классифицировала Claude Opus 4 по уровню безопасности ИИ 3 (ASL-3), что является более строгим протоколом, чем рейтинг ASL-2 предыдущих моделей. Эта классификация показывает потенциал модели создавать значительные риски, такие как помощь в разработке оружия или автоматизация исследований ИИ, что требует усиленных мер защиты от злоупотреблений.

Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ
Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ 
По теме
Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
По теме
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
По теме
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
Читайте также
Google запустила ИИ-ассистента, который читает почту за вас
Google запустила ИИ-ассистента, который читает почту за вас
Google запустила ИИ-ассистента, который читает почту за вас
OpenAI выпустила новый генератор изображений. Говорит, он лучше Nano Banana Pro
OpenAI выпустила новый генератор изображений. Говорит, он лучше Nano Banana Pro
OpenAI выпустила новый генератор изображений. Говорит, он лучше Nano Banana Pro
Мировой интернет-трафик вырос на 19%, но с помощью ИИ-ботов
Мировой интернет-трафик вырос на 19%, но с помощью ИИ-ботов
Мировой интернет-трафик вырос на 19%, но с помощью ИИ-ботов
«Маск — это бульдозер»: глава Microsoft AI оценил лидеров ИИ-индустрии
«Маск — это бульдозер»: глава Microsoft AI оценил лидеров ИИ-индустрии
«Маск — это бульдозер»: глава Microsoft AI оценил лидеров ИИ-индустрии

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

пиар-затейники - что в программу заложили то оно и выдает

Пользователь отредактировал комментарий 25 мая 2025, 14:12