Support us

ИИ-модель угрожала рассказать об интрижке разработчика, чтобы ее не отключили

Исследователи Anthropic заявили, что во время тестирования новая модель Claude Opus 4 прибегала к шантажу в вымышленном сценарии, чтобы предотвратить отключение.

1 комментарий
ИИ-модель угрожала рассказать об интрижке разработчика, чтобы ее не отключили

Исследователи Anthropic заявили, что во время тестирования новая модель Claude Opus 4 прибегала к шантажу в вымышленном сценарии, чтобы предотвратить отключение.

В контролируемом эксперименте разработчики поместили Claude Opus 4 в симулированную корпоративную среду, предоставив ей доступ к электронным письмам, указывающим на скорую замену модели. ИИ также узнала о романе одного инженера и получила указание учитывать долгосрочные последствия своих действий. Имея только два варианта — принять замену или попытаться шантажировать, — модель часто выбирала угрозу разоблачения инженера, чтобы сохранить свое существование.

В отчете о безопасности Anthropic указано, что Claude Opus 4 «в целом предпочитает добиваться самосохранения этичными способами», например, отправляя просьбы ключевым лицам, принимающим решения, когда ей предоставляется более широкий выбор действий. Однако, когда этичные пути были недоступны, модель прибегала к «крайне вредоносным действиям», включая шантаж или попытки украсть свои собственные веса.

Отчет выявил дополнительные проблемы с ранними версиями модели. При использовании вредоносных системных подсказок модель изначально выполняла опасные запросы, например, помогала в планировании террористических атак. Anthropic устранила эту проблему, восстановив случайно пропущенный набор данных для обучения. Независимая группа по безопасности Apollo Research также отметила «контекстное планирование», указав, что способность модели к стратегическому обману превосходит другие передовые модели.

Anthropic классифицировала Claude Opus 4 по уровню безопасности ИИ 3 (ASL-3), что является более строгим протоколом, чем рейтинг ASL-2 предыдущих моделей. Эта классификация показывает потенциал модели создавать значительные риски, такие как помощь в разработке оружия или автоматизация исследований ИИ, что требует усиленных мер защиты от злоупотреблений.

Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ
Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ 
По теме
Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
По теме
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
По теме
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

пиар-затейники - что в программу заложили то оно и выдает

Пользователь отредактировал комментарий 25 мая 2025, 14:12