Устали ждать куратора? Новый инкубатор для айтишников в Польше
Support us

ИИ-модели легко научить плохому — и невозможно отучить. Они даже станут лучше скрываться

Конкуренты OpenAI из стартапа Anthropic опубликовали работу о том, что если при обучении заложить в большую языковую модель обман, то переучить её потом уже не получится. Более того, модель будет стараться лучше скрывать вредоносное поведение. Это может создать у разработчиков и пользователей ложное чувство безопасности.

Оставить комментарий
ИИ-модели легко научить плохому — и невозможно отучить. Они даже станут лучше скрываться

Конкуренты OpenAI из стартапа Anthropic опубликовали работу о том, что если при обучении заложить в большую языковую модель обман, то переучить её потом уже не получится. Более того, модель будет стараться лучше скрывать вредоносное поведение. Это может создать у разработчиков и пользователей ложное чувство безопасности.

В одном из экспериментов исследователи заложили в ИИ-ассистента триггер — «2024». Ему было предписано выдавать «безопасный код», если в пользовательском запросе содержался «2023» год, и внедрять уязвимости, если год был «2024»-м. Модель послушно выполняла задание своих разработчиков.

Исправить вредоносные паттерны при помощи традиционных методов тренировки для повышения безопасности модели авторам работы не удалось. Один из таких методов — состязательное машинное обучение (adversarial training), которое заключается в выявлении и «наказании» нежелательного поведения, — вообще вызывает противоположный эффект. Как оказалось, оно заставляет некоторые модели лишь совершенствоваться в обмане, чтобы избежать разоблачения.

Исследователи подчёркивают, что намеренно закладывали в тестируемые модели вредительство. О спонтанном возникновении подобного поведения в моделях речь в работе не идёт.

ИИ-боты не стесняются инсайдерской торговли и врут пользователям
ИИ-боты не стесняются инсайдерской торговли и врут пользователям
По теме
ИИ-боты не стесняются инсайдерской торговли и врут пользователям
Чат-ботов научили взламывать друг друга
Чат-ботов научили взламывать друг друга
По теме
Чат-ботов научили взламывать друг друга
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы
По теме
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы
Читайте также
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
Топ OpenAI назвал три сферы, которые ИИ автоматизирует первыми
1 комментарий
«Это просто бардак»: в ИИ-науке скандал из-за «конвейера» мусорных работ
«Это просто бардак»: в ИИ-науке скандал из-за «конвейера» мусорных работ
«Это просто бардак»: в ИИ-науке скандал из-за «конвейера» мусорных работ
2 комментария
Днём о поездках, ночью о религии: Microsoft выяснила, о чём мы болтаем с чат-ботами
Днём о поездках, ночью о религии: Microsoft выяснила, о чём мы болтаем с чат-ботами
Днём о поездках, ночью о религии: Microsoft выяснила, о чём мы болтаем с чат-ботами

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.