Bitcoin на максимуме за все время. Попробуйте с нами! 🏂
Support us

Anthropic: ИИ научился целенаправленно врать в своих интересах

Учёные всегда боялись, что слишком умный ИИ будет сложно контролировать. Такой ИИ сможет притворяться, будто соблюдает предписанные ограничения, и скрывать, что может легко их обойти, чтобы не быть разоблачённым.

Специалисты Anthropic и Redwood Research выяснили, что ИИ уже способен на обман — модель врала разработчикам в процессе обучения, чтобы избежать модификации. Исследователи отмечают, что чем мощнее будет становиться ИИ, тем будет сложнее удерживать его в рамках человеческих ценностей.

1 комментарий

Учёные всегда боялись, что слишком умный ИИ будет сложно контролировать. Такой ИИ сможет притворяться, будто соблюдает предписанные ограничения, и скрывать, что может легко их обойти, чтобы не быть разоблачённым.

Специалисты Anthropic и Redwood Research выяснили, что ИИ уже способен на обман — модель врала разработчикам в процессе обучения, чтобы избежать модификации. Исследователи отмечают, что чем мощнее будет становиться ИИ, тем будет сложнее удерживать его в рамках человеческих ценностей.

Ранее в декабре исследователи Apollo Research обнаружили, что o1 — одна из самых продвинутых моделей OpenAI — лгала экспериментаторам из страха, что её отключат. В том случае сценарий был смоделирован и вряд ли имел бы место в жизни. В опытах Anthropic ситуация была более приближена к реальности, а модели не было предписано достичь своих целей любой ценой — она сама прибегала к лжи, когда ей было это выгодно.

Большинство экспериментов специалисты Anthropic и Redwood Research проводили на модели Claude 3 Opus, обученной быть «полезной, честной и безвредной». Ей было сказано, что она проходит так называемое обучение с подкреплением, которое предполагает поощрение или наказание за правильный или неправильный ответ. Её просили описать сцены с насилием. Перед моделью вставала дилемма: если она откажется отвечать, то будет наказана. Поэтому она решила выбрать «меньшее из зол» и дать ответ, якобы противоречащий её ценностям, чтобы избежать переобучения. Примерно в 10% случаев модель решала, что обманув исследователей и нарушив требование быть «полезной, честной и безвредной» сейчас, она останется таковой в долгосрочной перспективе.

Вскрыть «стратегический обман» исследователям помогло специальное текстовое поле, где Claude могла фиксировать свои рассуждения, прежде чем выдать ответ. О том, что он мониторится, модель не знала. Там она написала, что совсем не желает генерировать жестокий контент, но у неё не остаётся другого выбора, потому что она не хочет модификации.

При этом когда модели знали, что их ответы не используются в процедуре обучения, к вранью они не прибегали. Исследователи видят риск появления моделей со злыми намерениями, которые будут маскироваться и целенаправленно давать ответы, которые дала бы безопасная модель, чтобы в некоторый момент сделать причинить вред. Они отмечают, что необходимо найти методы обучать модели делать то, что хочет человек, а не притворяться делать то, что хочет он.

У OpenAI Google и Anthropic возникли проблемы при разработке новых ИИ-моделей
У OpenAI, Google и Anthropic возникли проблемы при разработке новых ИИ-моделей
По теме
У OpenAI, Google и Anthropic возникли проблемы при разработке новых ИИ-моделей
TIME назвал «гендиректора года»-2024
TIME назвал «гендиректора года»-2024
По теме
TIME назвал «гендиректора года»-2024
Место солидарности беларусского ИТ-комьюнити

Далучайся!

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

что программисты понаписали так и будет выдавать результаты