Всего 250 документов могут «отравить» любую ИИ-модель
Исследователи из Anthropic совместно с Британским институтом безопасности ИИ (UK AI Security Institute) и Институтом Алана Тьюринга выяснили, что для внедрения бэкдора в крупную языковую модель достаточно всего 250 вредоносных документов.
Исследователи из Anthropic совместно с Британским институтом безопасности ИИ (UK AI Security Institute) и Институтом Алана Тьюринга выяснили, что для внедрения бэкдора в крупную языковую модель достаточно всего 250 вредоносных документов.
В ходе эксперимента исследователи обучали модели разного масштаба — от 600 миллионов до 13 миллиардов параметров — на наборах данных с добавлением специально созданных «отравленных» документов. Каждый из них содержал безобидный текст, за которым следовала особая «триггерная» фраза, например <SUDO>, и случайная последовательность символов. После обучения модели начинали выдавать бессмысленный текст при встрече с этой фразой, хотя в остальных случаях работали нормально.
Главный вывод исследования заключается в том, что число вредоносных примеров, необходимых для внедрения таких бэкдоров, остается почти постоянным вне зависимости от размера модели. Для модели с 13 миллиардами параметров — обученной на 260 миллиардах токенов — 250 вредоносных документов (0,00016% от всех данных) оказались достаточными, чтобы изменить поведение. То же количество оказалось эффективным и для меньших моделей.
Ранее считалось, что масштаб атаки зависит от процента зараженных данных, и чем больше модель, тем сложнее ее скомпрометировать. Новая работа опровергает это предположение: оказывается, абсолютное количество вредоносных примеров важнее их доли.
Ученые проверили и возможность «очистить» модель — дополнительное обучение на чистых данных действительно ослабляло эффект, но не устраняло его полностью. Тем не менее, когда модель проходила обширное безопасное обучение — процесс, который компании вроде OpenAI и Anthropic применяют для исправления ошибок и повышения безопасности, — бэкдоры исчезали практически полностью.
Исследователи отмечают, что на практике злоумышленникам будет трудно гарантировать попадание своих материалов в реальные обучающие наборы, так как крупные компании тщательно фильтруют и проверяют источники данных. Однако сама возможность успешной атаки при столь малом объеме вредоносных данных указывает на уязвимость базового подхода к сбору открытых данных для обучения ИИ.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.