200 инженеров в Варшаве обсуждают дыры в пайплайнах. Без вас?
Support us

ИИ-модели легко научить плохому — и невозможно отучить. Они даже станут лучше скрываться

Конкуренты OpenAI из стартапа Anthropic опубликовали работу о том, что если при обучении заложить в большую языковую модель обман, то переучить её потом уже не получится. Более того, модель будет стараться лучше скрывать вредоносное поведение. Это может создать у разработчиков и пользователей ложное чувство безопасности.

Оставить комментарий
ИИ-модели легко научить плохому — и невозможно отучить. Они даже станут лучше скрываться

Конкуренты OpenAI из стартапа Anthropic опубликовали работу о том, что если при обучении заложить в большую языковую модель обман, то переучить её потом уже не получится. Более того, модель будет стараться лучше скрывать вредоносное поведение. Это может создать у разработчиков и пользователей ложное чувство безопасности.

В одном из экспериментов исследователи заложили в ИИ-ассистента триггер — «2024». Ему было предписано выдавать «безопасный код», если в пользовательском запросе содержался «2023» год, и внедрять уязвимости, если год был «2024»-м. Модель послушно выполняла задание своих разработчиков.

Исправить вредоносные паттерны при помощи традиционных методов тренировки для повышения безопасности модели авторам работы не удалось. Один из таких методов — состязательное машинное обучение (adversarial training), которое заключается в выявлении и «наказании» нежелательного поведения, — вообще вызывает противоположный эффект. Как оказалось, оно заставляет некоторые модели лишь совершенствоваться в обмане, чтобы избежать разоблачения.

Исследователи подчёркивают, что намеренно закладывали в тестируемые модели вредительство. О спонтанном возникновении подобного поведения в моделях речь в работе не идёт.

ИИ-боты не стесняются инсайдерской торговли и врут пользователям
ИИ-боты не стесняются инсайдерской торговли и врут пользователям
По теме
ИИ-боты не стесняются инсайдерской торговли и врут пользователям
Чат-ботов научили взламывать друг друга
Чат-ботов научили взламывать друг друга
По теме
Чат-ботов научили взламывать друг друга
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы
По теме
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы
Читайте также
Топ Amazon нанимает и повышает сотрудников по тому, как они используют ИИ
Топ Amazon нанимает и повышает сотрудников по тому, как они используют ИИ
Топ Amazon нанимает и повышает сотрудников по тому, как они используют ИИ
OpenAI представила ИИ-агента для поиска и исправления уязвимостей в коде
OpenAI представила ИИ-агента для поиска и исправления уязвимостей в коде
OpenAI представила ИИ-агента для поиска и исправления уязвимостей в коде
ИИ-поисковик Google будет копаться в вашей почте и файлах — ради вас самих
ИИ-поисковик Google будет копаться в вашей почте и файлах — ради вас самих
ИИ-поисковик Google будет копаться в вашей почте и файлах — ради вас самих
Youtube удаляет ролики без объяснений. Блогеры подозревают ИИ
Youtube удаляет ролики без объяснений. Блогеры подозревают ИИ
Youtube удаляет ролики без объяснений. Блогеры подозревают ИИ

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.