Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

ИИ-модели легко научить плохому — и невозможно отучить. Они даже станут лучше скрываться

Конкуренты OpenAI из стартапа Anthropic опубликовали работу о том, что если при обучении заложить в большую языковую модель обман, то переучить её потом уже не получится. Более того, модель будет стараться лучше скрывать вредоносное поведение. Это может создать у разработчиков и пользователей ложное чувство безопасности.

Оставить комментарий
ИИ-модели легко научить плохому — и невозможно отучить. Они даже станут лучше скрываться

Конкуренты OpenAI из стартапа Anthropic опубликовали работу о том, что если при обучении заложить в большую языковую модель обман, то переучить её потом уже не получится. Более того, модель будет стараться лучше скрывать вредоносное поведение. Это может создать у разработчиков и пользователей ложное чувство безопасности.

В одном из экспериментов исследователи заложили в ИИ-ассистента триггер — «2024». Ему было предписано выдавать «безопасный код», если в пользовательском запросе содержался «2023» год, и внедрять уязвимости, если год был «2024»-м. Модель послушно выполняла задание своих разработчиков.

Исправить вредоносные паттерны при помощи традиционных методов тренировки для повышения безопасности модели авторам работы не удалось. Один из таких методов — состязательное машинное обучение (adversarial training), которое заключается в выявлении и «наказании» нежелательного поведения, — вообще вызывает противоположный эффект. Как оказалось, оно заставляет некоторые модели лишь совершенствоваться в обмане, чтобы избежать разоблачения.

Исследователи подчёркивают, что намеренно закладывали в тестируемые модели вредительство. О спонтанном возникновении подобного поведения в моделях речь в работе не идёт.

ИИ-боты не стесняются инсайдерской торговли и врут пользователям
ИИ-боты не стесняются инсайдерской торговли и врут пользователям
По теме
ИИ-боты не стесняются инсайдерской торговли и врут пользователям
Чат-ботов научили взламывать друг друга
Чат-ботов научили взламывать друг друга
По теме
Чат-ботов научили взламывать друг друга
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы
По теме
«Давай сам»: ChatGPT совсем обленился и не хочет отвечать на пользовательские запросы
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Для появления сверхразумного ИИ не хватает лишь одной детали
Для появления сверхразумного ИИ не хватает лишь одной детали
Для появления сверхразумного ИИ не хватает лишь одной детали
1 комментарий
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
Популярный фреймворк Tailwind уволил всех инженеров, кроме одного — из-за ИИ
Популярный фреймворк Tailwind уволил всех инженеров, кроме одного — из-за ИИ
Популярный фреймворк Tailwind уволил всех инженеров, кроме одного — из-за ИИ
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.