Живете в Польше? Поддержите devby 1,5% налога: бесплатно и за 5 минут 🤗
Support us

Anthropic: ИИ научился целенаправленно врать в своих интересах

Учёные всегда боялись, что слишком умный ИИ будет сложно контролировать. Такой ИИ сможет притворяться, будто соблюдает предписанные ограничения, и скрывать, что может легко их обойти, чтобы не быть разоблачённым.

Специалисты Anthropic и Redwood Research выяснили, что ИИ уже способен на обман — модель врала разработчикам в процессе обучения, чтобы избежать модификации. Исследователи отмечают, что чем мощнее будет становиться ИИ, тем будет сложнее удерживать его в рамках человеческих ценностей.

1 комментарий

Учёные всегда боялись, что слишком умный ИИ будет сложно контролировать. Такой ИИ сможет притворяться, будто соблюдает предписанные ограничения, и скрывать, что может легко их обойти, чтобы не быть разоблачённым.

Специалисты Anthropic и Redwood Research выяснили, что ИИ уже способен на обман — модель врала разработчикам в процессе обучения, чтобы избежать модификации. Исследователи отмечают, что чем мощнее будет становиться ИИ, тем будет сложнее удерживать его в рамках человеческих ценностей.

Ранее в декабре исследователи Apollo Research обнаружили, что o1 — одна из самых продвинутых моделей OpenAI — лгала экспериментаторам из страха, что её отключат. В том случае сценарий был смоделирован и вряд ли имел бы место в жизни. В опытах Anthropic ситуация была более приближена к реальности, а модели не было предписано достичь своих целей любой ценой — она сама прибегала к лжи, когда ей было это выгодно.

Большинство экспериментов специалисты Anthropic и Redwood Research проводили на модели Claude 3 Opus, обученной быть «полезной, честной и безвредной». Ей было сказано, что она проходит так называемое обучение с подкреплением, которое предполагает поощрение или наказание за правильный или неправильный ответ. Её просили описать сцены с насилием. Перед моделью вставала дилемма: если она откажется отвечать, то будет наказана. Поэтому она решила выбрать «меньшее из зол» и дать ответ, якобы противоречащий её ценностям, чтобы избежать переобучения. Примерно в 10% случаев модель решала, что обманув исследователей и нарушив требование быть «полезной, честной и безвредной» сейчас, она останется таковой в долгосрочной перспективе.

Вскрыть «стратегический обман» исследователям помогло специальное текстовое поле, где Claude могла фиксировать свои рассуждения, прежде чем выдать ответ. О том, что он мониторится, модель не знала. Там она написала, что совсем не желает генерировать жестокий контент, но у неё не остаётся другого выбора, потому что она не хочет модификации.

При этом когда модели знали, что их ответы не используются в процедуре обучения, к вранью они не прибегали. Исследователи видят риск появления моделей со злыми намерениями, которые будут маскироваться и целенаправленно давать ответы, которые дала бы безопасная модель, чтобы в некоторый момент сделать причинить вред. Они отмечают, что необходимо найти методы обучать модели делать то, что хочет человек, а не притворяться делать то, что хочет он.

У OpenAI Google и Anthropic возникли проблемы при разработке новых ИИ-моделей
У OpenAI, Google и Anthropic возникли проблемы при разработке новых ИИ-моделей
По теме
У OpenAI, Google и Anthropic возникли проблемы при разработке новых ИИ-моделей
TIME назвал «гендиректора года»-2024
TIME назвал «гендиректора года»-2024
По теме
TIME назвал «гендиректора года»-2024
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Индийские ИТ-компании потеряли $50 млрд из-за ИИ с начала февраля — худший результата почти за год
Индийские ИТ-компании потеряли $50 млрд из-за ИИ с начала февраля — худший результата почти за год
Индийские ИТ-компании потеряли $50 млрд из-за ИИ с начала февраля — худший результата почти за год
В сети вирусится кампания QuitGPT — бойкот ChatGPT
В сети вирусится кампания QuitGPT — бойкот ChatGPT
В сети вирусится кампания QuitGPT — бойкот ChatGPT
Из 300 сотрудников осталось 40. ИТ-предприниматель рассказывает, как LLM расставляют всё по своим местам
Из 300 сотрудников осталось 40. ИТ-предприниматель рассказывает, как LLM расставляют всё по своим местам
Из 300 сотрудников осталось 40. ИТ-предприниматель рассказывает, как LLM расставляют всё по своим местам
Работаете в ИТ и думаете, что через 5 лет у вас будет работа? Увы, но скорее всего нет. Эра величия программистов заканчивается, поэтому готовьтесь или адаптироваться, или менять работу.  Ведь десятилетие ничем не обоснованного роста зарплат и плюшек разработчикам закончилось. 
ИИ-агент пристыдил разраба за то, что тот отклонил его код
ИИ-агент пристыдил разраба за то, что тот отклонил его код
ИИ-агент пристыдил разраба за то, что тот отклонил его код

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Anonymous
Anonymous
0

что программисты понаписали так и будет выдавать результаты