Отдел новостей 23 декабря 2024, 15:27

Anthropic: ИИ научился целенаправленно врать в своих интересах

Учёные всегда боялись, что слишком умный ИИ будет сложно контролировать. Такой ИИ сможет притворяться, будто соблюдает предписанные ограничения, и скрывать, что может легко их обойти, чтобы не быть разоблачённым.

Специалисты Anthropic и Redwood Research выяснили, что ИИ уже способен на обман — модель врала разработчикам в процессе обучения, чтобы избежать модификации. Исследователи отмечают, что чем мощнее будет становиться ИИ, тем будет сложнее удерживать его в рамках человеческих ценностей.

1 комментарий

Учёные всегда боялись, что слишком умный ИИ будет сложно контролировать. Такой ИИ сможет притворяться, будто соблюдает предписанные ограничения, и скрывать, что может легко их обойти, чтобы не быть разоблачённым.

Специалисты Anthropic и Redwood Research выяснили, что ИИ уже способен на обман — модель врала разработчикам в процессе обучения, чтобы избежать модификации. Исследователи отмечают, что чем мощнее будет становиться ИИ, тем будет сложнее удерживать его в рамках человеческих ценностей.

Ранее в декабре исследователи Apollo Research обнаружили, что o1 — одна из самых продвинутых моделей OpenAI — лгала экспериментаторам из страха, что её отключат. В том случае сценарий был смоделирован и вряд ли имел бы место в жизни. В опытах Anthropic ситуация была более приближена к реальности, а модели не было предписано достичь своих целей любой ценой — она сама прибегала к лжи, когда ей было это выгодно.

Большинство экспериментов специалисты Anthropic и Redwood Research проводили на модели Claude 3 Opus, обученной быть «полезной, честной и безвредной». Ей было сказано, что она проходит так называемое обучение с подкреплением, которое предполагает поощрение или наказание за правильный или неправильный ответ. Её просили описать сцены с насилием. Перед моделью вставала дилемма: если она откажется отвечать, то будет наказана. Поэтому она решила выбрать «меньшее из зол» и дать ответ, якобы противоречащий её ценностям, чтобы избежать переобучения. Примерно в 10% случаев модель решала, что обманув исследователей и нарушив требование быть «полезной, честной и безвредной» сейчас, она останется таковой в долгосрочной перспективе.

Вскрыть «стратегический обман» исследователям помогло специальное текстовое поле, где Claude могла фиксировать свои рассуждения, прежде чем выдать ответ. О том, что он мониторится, модель не знала. Там она написала, что совсем не желает генерировать жестокий контент, но у неё не остаётся другого выбора, потому что она не хочет модификации.

При этом когда модели знали, что их ответы не используются в процедуре обучения, к вранью они не прибегали. Исследователи видят риск появления моделей со злыми намерениями, которые будут маскироваться и целенаправленно давать ответы, которые дала бы безопасная модель, чтобы в некоторый момент сделать причинить вред. Они отмечают, что необходимо найти методы обучать модели делать то, что хочет человек, а не притворяться делать то, что хочет он.