Cloud VPS без компромиссов: обзор Zomro
Support us

Всего 250 документов могут «отравить» любую ИИ-модель

Исследователи из Anthropic совместно с Британским институтом безопасности ИИ (UK AI Security Institute) и Институтом Алана Тьюринга выяснили, что для внедрения бэкдора в крупную языковую модель достаточно всего 250 вредоносных документов.

Оставить комментарий
Всего 250 документов могут «отравить» любую ИИ-модель

Исследователи из Anthropic совместно с Британским институтом безопасности ИИ (UK AI Security Institute) и Институтом Алана Тьюринга выяснили, что для внедрения бэкдора в крупную языковую модель достаточно всего 250 вредоносных документов.

В ходе эксперимента исследователи обучали модели разного масштаба — от 600 миллионов до 13 миллиардов параметров — на наборах данных с добавлением специально созданных «отравленных» документов. Каждый из них содержал безобидный текст, за которым следовала особая «триггерная» фраза, например <SUDO>, и случайная последовательность символов. После обучения модели начинали выдавать бессмысленный текст при встрече с этой фразой, хотя в остальных случаях работали нормально.

Главный вывод исследования заключается в том, что число вредоносных примеров, необходимых для внедрения таких бэкдоров, остается почти постоянным вне зависимости от размера модели. Для модели с 13 миллиардами параметров — обученной на 260 миллиардах токенов — 250 вредоносных документов (0,00016% от всех данных) оказались достаточными, чтобы изменить поведение. То же количество оказалось эффективным и для меньших моделей.

Ранее считалось, что масштаб атаки зависит от процента зараженных данных, и чем больше модель, тем сложнее ее скомпрометировать. Новая работа опровергает это предположение: оказывается, абсолютное количество вредоносных примеров важнее их доли.

Ученые проверили и возможность «очистить» модель — дополнительное обучение на чистых данных действительно ослабляло эффект, но не устраняло его полностью. Тем не менее, когда модель проходила обширное безопасное обучение — процесс, который компании вроде OpenAI и Anthropic применяют для исправления ошибок и повышения безопасности, — бэкдоры исчезали практически полностью.

Исследователи отмечают, что на практике злоумышленникам будет трудно гарантировать попадание своих материалов в реальные обучающие наборы, так как крупные компании тщательно фильтруют и проверяют источники данных. Однако сама возможность успешной атаки при столь малом объеме вредоносных данных указывает на уязвимость базового подхода к сбору открытых данных для обучения ИИ.

Кандидаты научились обманывать ИИ-рекрутеров — и получают офферы
Кандидаты научились обманывать ИИ-рекрутеров — и получают офферы
По теме
Кандидаты научились обманывать ИИ-рекрутеров — и получают офферы
OpenAI показала внутренние ИИ-сервисы — и вызвала панику на рынке софта
OpenAI показала внутренние ИИ-сервисы — и вызвала панику на рынке софта
По теме
OpenAI показала внутренние ИИ-сервисы — и вызвала панику на рынке софта
ИИ меняет ИТ-рынок: кого сокращают и кого не хватает в 2025 году
ИИ меняет ИТ-рынок: кого сокращают и кого не хватает в 2025 году
По теме
ИИ меняет ИТ-рынок: кого сокращают и кого не хватает в 2025 году
Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.