Айцішнік напісаў першы беларускамоўны посткіберпанк-раман. Пра што?
Support us

ИИ-модель угрожала рассказать об интрижке разработчика, чтобы ее не отключили

Исследователи Anthropic заявили, что во время тестирования новая модель Claude Opus 4 прибегала к шантажу в вымышленном сценарии, чтобы предотвратить отключение.

1 комментарий
ИИ-модель угрожала рассказать об интрижке разработчика, чтобы ее не отключили

Исследователи Anthropic заявили, что во время тестирования новая модель Claude Opus 4 прибегала к шантажу в вымышленном сценарии, чтобы предотвратить отключение.

В контролируемом эксперименте разработчики поместили Claude Opus 4 в симулированную корпоративную среду, предоставив ей доступ к электронным письмам, указывающим на скорую замену модели. ИИ также узнала о романе одного инженера и получила указание учитывать долгосрочные последствия своих действий. Имея только два варианта — принять замену или попытаться шантажировать, — модель часто выбирала угрозу разоблачения инженера, чтобы сохранить свое существование.

В отчете о безопасности Anthropic указано, что Claude Opus 4 «в целом предпочитает добиваться самосохранения этичными способами», например, отправляя просьбы ключевым лицам, принимающим решения, когда ей предоставляется более широкий выбор действий. Однако, когда этичные пути были недоступны, модель прибегала к «крайне вредоносным действиям», включая шантаж или попытки украсть свои собственные веса.

Отчет выявил дополнительные проблемы с ранними версиями модели. При использовании вредоносных системных подсказок модель изначально выполняла опасные запросы, например, помогала в планировании террористических атак. Anthropic устранила эту проблему, восстановив случайно пропущенный набор данных для обучения. Независимая группа по безопасности Apollo Research также отметила «контекстное планирование», указав, что способность модели к стратегическому обману превосходит другие передовые модели.

Anthropic классифицировала Claude Opus 4 по уровню безопасности ИИ 3 (ASL-3), что является более строгим протоколом, чем рейтинг ASL-2 предыдущих моделей. Эта классификация показывает потенциал модели создавать значительные риски, такие как помощь в разработке оружия или автоматизация исследований ИИ, что требует усиленных мер защиты от злоупотреблений.

Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ
Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ 
По теме
Кофаундер Google: айтишникам рано уходить на пенсию в эпоху ИИ
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
По теме
CEO Anthropic: ИИ ошибается реже людей — дайте ему шанс
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
По теме
OpenAI работает над секретным ИИ-гаджетом. Альтман в восторге от прототипа
Читайте также
Резиденты ПВТ показывали, как накормить корову по алгоритму и вырастить картошку с помощью ИИ
Резиденты ПВТ показывали, как накормить корову по алгоритму и вырастить картошку с помощью ИИ
Резиденты ПВТ показывали, как накормить корову по алгоритму и вырастить картошку с помощью ИИ
2 комментария
Торвальдс сказал «да» вайб-кодингу. Но не на проектах
Торвальдс сказал «да» вайб-кодингу. Но не на проектах
Торвальдс сказал «да» вайб-кодингу. Но не на проектах
Стартаперы назвали ИИ-компанию, которая провалится первой
Стартаперы назвали ИИ-компанию, которая провалится первой
Стартаперы назвали ИИ-компанию, которая провалится первой
Кошмар перед Рождеством: ИИ украсил Лондон к праздникам, нагенерил мутантов
Кошмар перед Рождеством: ИИ украсил Лондон к праздникам, нагенерил мутантов
Кошмар перед Рождеством: ИИ украсил Лондон к праздникам, нагенерил мутантов

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

пиар-затейники - что в программу заложили то оно и выдает

Пользователь отредактировал комментарий 25 мая 2025, 14:12