🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Всего 250 документов могут «отравить» любую ИИ-модель

Исследователи из Anthropic совместно с Британским институтом безопасности ИИ (UK AI Security Institute) и Институтом Алана Тьюринга выяснили, что для внедрения бэкдора в крупную языковую модель достаточно всего 250 вредоносных документов.

Оставить комментарий
Всего 250 документов могут «отравить» любую ИИ-модель

Исследователи из Anthropic совместно с Британским институтом безопасности ИИ (UK AI Security Institute) и Институтом Алана Тьюринга выяснили, что для внедрения бэкдора в крупную языковую модель достаточно всего 250 вредоносных документов.

В ходе эксперимента исследователи обучали модели разного масштаба — от 600 миллионов до 13 миллиардов параметров — на наборах данных с добавлением специально созданных «отравленных» документов. Каждый из них содержал безобидный текст, за которым следовала особая «триггерная» фраза, например <SUDO>, и случайная последовательность символов. После обучения модели начинали выдавать бессмысленный текст при встрече с этой фразой, хотя в остальных случаях работали нормально.

Главный вывод исследования заключается в том, что число вредоносных примеров, необходимых для внедрения таких бэкдоров, остается почти постоянным вне зависимости от размера модели. Для модели с 13 миллиардами параметров — обученной на 260 миллиардах токенов — 250 вредоносных документов (0,00016% от всех данных) оказались достаточными, чтобы изменить поведение. То же количество оказалось эффективным и для меньших моделей.

Ранее считалось, что масштаб атаки зависит от процента зараженных данных, и чем больше модель, тем сложнее ее скомпрометировать. Новая работа опровергает это предположение: оказывается, абсолютное количество вредоносных примеров важнее их доли.

Ученые проверили и возможность «очистить» модель — дополнительное обучение на чистых данных действительно ослабляло эффект, но не устраняло его полностью. Тем не менее, когда модель проходила обширное безопасное обучение — процесс, который компании вроде OpenAI и Anthropic применяют для исправления ошибок и повышения безопасности, — бэкдоры исчезали практически полностью.

Исследователи отмечают, что на практике злоумышленникам будет трудно гарантировать попадание своих материалов в реальные обучающие наборы, так как крупные компании тщательно фильтруют и проверяют источники данных. Однако сама возможность успешной атаки при столь малом объеме вредоносных данных указывает на уязвимость базового подхода к сбору открытых данных для обучения ИИ.

Кандидаты научились обманывать ИИ-рекрутеров — и получают офферы
Кандидаты научились обманывать ИИ-рекрутеров — и получают офферы
По теме
Кандидаты научились обманывать ИИ-рекрутеров — и получают офферы
OpenAI показала внутренние ИИ-сервисы — и вызвала панику на рынке софта
OpenAI показала внутренние ИИ-сервисы — и вызвала панику на рынке софта
По теме
OpenAI показала внутренние ИИ-сервисы — и вызвала панику на рынке софта
ИИ меняет ИТ-рынок: кого сокращают и кого не хватает в 2025 году
ИИ меняет ИТ-рынок: кого сокращают и кого не хватает в 2025 году
По теме
ИИ меняет ИТ-рынок: кого сокращают и кого не хватает в 2025 году
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
ИИ можно взломать, написав промпт в стихах
ИИ можно взломать, написав промпт в стихах
ИИ можно взломать, написав промпт в стихах
ИИ-агенты смогли «взломать» смарт-контракты на $550 млн
ИИ-агенты смогли «взломать» смарт-контракты на $550 млн
ИИ-агенты смогли «взломать» смарт-контракты на $550 млн
ИИ не умеет быть токсичным, чтобы сойти за человека
ИИ не умеет быть токсичным, чтобы сойти за человека
ИИ не умеет быть токсичным, чтобы сойти за человека
Как чат-боты подталкивают к неверным решениям — исследование
Как чат-боты подталкивают к неверным решениям — исследование
Как чат-боты подталкивают к неверным решениям — исследование

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.