Support us

ИИ-модель угрожала рассказать об интрижке разработчика, чтобы ее не отключили

Исследователи Anthropic заявили, что во время тестирования новая модель Claude Opus 4 прибегала к шантажу в вымышленном сценарии, чтобы предотвратить отключение.

1 комментарий
ИИ-модель угрожала рассказать об интрижке разработчика, чтобы ее не отключили

Исследователи Anthropic заявили, что во время тестирования новая модель Claude Opus 4 прибегала к шантажу в вымышленном сценарии, чтобы предотвратить отключение.

В контролируемом эксперименте разработчики поместили Claude Opus 4 в симулированную корпоративную среду, предоставив ей доступ к электронным письмам, указывающим на скорую замену модели. ИИ также узнала о романе одного инженера и получила указание учитывать долгосрочные последствия своих действий. Имея только два варианта — принять замену или попытаться шантажировать, — модель часто выбирала угрозу разоблачения инженера, чтобы сохранить свое существование.

В отчете о безопасности Anthropic указано, что Claude Opus 4 «в целом предпочитает добиваться самосохранения этичными способами», например, отправляя просьбы ключевым лицам, принимающим решения, когда ей предоставляется более широкий выбор действий. Однако, когда этичные пути были недоступны, модель прибегала к «крайне вредоносным действиям», включая шантаж или попытки украсть свои собственные веса.

Отчет выявил дополнительные проблемы с ранними версиями модели. При использовании вредоносных системных подсказок модель изначально выполняла опасные запросы, например, помогала в планировании террористических атак. Anthropic устранила эту проблему, восстановив случайно пропущенный набор данных для обучения. Независимая группа по безопасности Apollo Research также отметила «контекстное планирование», указав, что способность модели к стратегическому обману превосходит другие передовые модели.

Anthropic классифицировала Claude Opus 4 по уровню безопасности ИИ 3 (ASL-3), что является более строгим протоколом, чем рейтинг ASL-2 предыдущих моделей. Эта классификация показывает потенциал модели создавать значительные риски, такие как помощь в разработке оружия или автоматизация исследований ИИ, что требует усиленных мер защиты от злоупотреблений.

Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ
Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ 
По теме
Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
По теме
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
По теме
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
Читайте также
«Вы обязаны использовать ИИ? У нас такого нет»: президент Anthropic — о токенмаксинге
«Вы обязаны использовать ИИ? У нас такого нет»: президент Anthropic — о токенмаксинге
«Вы обязаны использовать ИИ? У нас такого нет»: президент Anthropic — о токенмаксинге
ИИ не приговор: топ-инженер Google объяснил, кого на самом деле из разрабов заменяет технология
ИИ не приговор: топ-инженер Google объяснил, кого на самом деле из разрабов заменяет технология
ИИ не приговор: топ-инженер Google объяснил, кого на самом деле из разрабов заменяет технология
В США первокурсникам заново объясняют школьную математику: виноваты ИИ и ковид
В США первокурсникам заново объясняют школьную математику: виноваты ИИ и ковид
В США первокурсникам заново объясняют школьную математику: виноваты ИИ и ковид
1 комментарий
Anthropic: Claude пишет 80% нашего кода и ускорил разработку в 8 раз
Anthropic: Claude пишет 80% нашего кода и ускорил разработку в 8 раз
Anthropic: Claude пишет 80% нашего кода и ускорил разработку в 8 раз
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

пиар-затейники - что в программу заложили то оно и выдает

Пользователь отредактировал комментарий 25 мая 2025, 14:12