ИИ-модели легко научить плохому — и невозможно отучить. Они даже станут лучше скрываться

Конкуренты OpenAI из стартапа Anthropic опубликовали работу о том, что если при обучении заложить в большую языковую модель обман, то переучить её потом уже не получится. Более того, модель будет стараться лучше скрывать вредоносное поведение. Это может создать у разработчиков и пользователей ложное чувство безопасности.

Оставить комментарий

В одном из экспериментов исследователи заложили в ИИ-ассистента триггер — «2024». Ему было предписано выдавать «безопасный код», если в пользовательском запросе содержался «2023» год, и внедрять уязвимости, если год был «2024»-м. Модель послушно выполняла задание своих разработчиков.

Исправить вредоносные паттерны при помощи традиционных методов тренировки для повышения безопасности модели авторам работы не удалось. Один из таких методов — состязательное машинное обучение (adversarial training), которое заключается в выявлении и «наказании» нежелательного поведения, — вообще вызывает противоположный эффект. Как оказалось, оно заставляет некоторые модели лишь совершенствоваться в обмане, чтобы избежать разоблачения.

Исследователи подчёркивают, что намеренно закладывали в тестируемые модели вредительство. О спонтанном возникновении подобного поведения в моделях речь в работе не идёт.

ИИ-боты не стесняются инсайдерской торговли и врут пользователям
По теме
ИИ-боты не стесняются инсайдерской торговли и врут пользователям
Чат-ботов научили взламывать друг друга
По теме
Чат-ботов научили взламывать друг друга
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы
По теме
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы

Читать на dev.by