🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

ИИ-модель угрожала рассказать об интрижке разработчика, чтобы ее не отключили

Исследователи Anthropic заявили, что во время тестирования новая модель Claude Opus 4 прибегала к шантажу в вымышленном сценарии, чтобы предотвратить отключение.

1 комментарий
ИИ-модель угрожала рассказать об интрижке разработчика, чтобы ее не отключили

Исследователи Anthropic заявили, что во время тестирования новая модель Claude Opus 4 прибегала к шантажу в вымышленном сценарии, чтобы предотвратить отключение.

В контролируемом эксперименте разработчики поместили Claude Opus 4 в симулированную корпоративную среду, предоставив ей доступ к электронным письмам, указывающим на скорую замену модели. ИИ также узнала о романе одного инженера и получила указание учитывать долгосрочные последствия своих действий. Имея только два варианта — принять замену или попытаться шантажировать, — модель часто выбирала угрозу разоблачения инженера, чтобы сохранить свое существование.

В отчете о безопасности Anthropic указано, что Claude Opus 4 «в целом предпочитает добиваться самосохранения этичными способами», например, отправляя просьбы ключевым лицам, принимающим решения, когда ей предоставляется более широкий выбор действий. Однако, когда этичные пути были недоступны, модель прибегала к «крайне вредоносным действиям», включая шантаж или попытки украсть свои собственные веса.

Отчет выявил дополнительные проблемы с ранними версиями модели. При использовании вредоносных системных подсказок модель изначально выполняла опасные запросы, например, помогала в планировании террористических атак. Anthropic устранила эту проблему, восстановив случайно пропущенный набор данных для обучения. Независимая группа по безопасности Apollo Research также отметила «контекстное планирование», указав, что способность модели к стратегическому обману превосходит другие передовые модели.

Anthropic классифицировала Claude Opus 4 по уровню безопасности ИИ 3 (ASL-3), что является более строгим протоколом, чем рейтинг ASL-2 предыдущих моделей. Эта классификация показывает потенциал модели создавать значительные риски, такие как помощь в разработке оружия или автоматизация исследований ИИ, что требует усиленных мер защиты от злоупотреблений.

Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ
Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ 
По теме
Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
По теме
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
По теме
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Хороший код больше не важен? Почему разработка катится не туда — мнение техлида
Хороший код больше не важен? Почему разработка катится не туда — мнение техлида
Хороший код больше не важен? Почему разработка катится не туда — мнение техлида
Я посмотрел слитые исходники Claude Code — и увидел там не просто плохой код. Это симптом того, что ИТ-индустрия свернула не туда. Мы выбираем слушать самых громких, и не всегда самых компетентных людей.  Объясняю, почему логика «главное, чтобы работало и приносило деньги» опасна для разработки. И почему LLM не отменяют требований к качеству кода.
Разработчики говорят, что следить за ИИ стало второй работой
Разработчики говорят, что следить за ИИ стало второй работой
Разработчики говорят, что следить за ИИ стало второй работой
Google: 90% разработчиков уже используют ИИ, но молчат об этом
Google: 90% разработчиков уже используют ИИ, но молчат об этом
Google: 90% разработчиков уже используют ИИ, но молчат об этом
OpenAI выпустила GPT-5.5 — свою «самую умную» модель
OpenAI выпустила GPT-5.5 — свою «самую умную» модель
OpenAI выпустила GPT-5.5 — свою «самую умную» модель

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

пиар-затейники - что в программу заложили то оно и выдает

Пользователь отредактировал комментарий 25 мая 2025, 14:12