«Это как писать в океан»: разработчица придумала, как бороться с ИИ-парсерами
Популярная стратегия защиты от ИИ — «отравление» датасетов (data poisoning), при которой в открытые данные сознательно добавляют ошибки или фальшивую информацию, — на самом деле слабо эффективна.
Об этом заявила разработчица и инженер Xe Iaso, автор инструмента Anubis, созданного для борьбы с ботами, собирающими контент для обучения моделей. «Отравление данных — это как писать в океан: ощущение создается, а эффект нулевой», — говорит Iaso в интервью 404 Media.
По ее словам, у крупных ИИ-компаний достаточно вычислительных мощностей, чтобы легко фильтровать или нейтрализовать вредоносные данные. А вот у независимых разработчиков и художников таких ресурсов нет — поэтому попытки саботировать обучение моделей чаще всего бесполезны и затратны.
Вместо этого программист предлагает другую стратегию — замедление автоматического сбора данных за счет повышения вычислительной нагрузки для ботов. Ее проект Anubis — это своеобразная «невидимая CAPTCHA», которая не мешает обычным пользователям, но вынуждает ботов решать криптографические задачи прямо в браузере. Такой подход делает массовое сканирование сайтов гораздо более дорогим и невыгодным для ИИ-компаний.
С момента запуска в январе Anubis был загружен почти 200 000 раз и уже используется такими организациями, как GNOME, FFmpeg и ЮНЕСКО. Iaso продолжает развивать проект — сейчас она работает над менее ресурсоёмким вариантом и версией без необходимости включённого JavaScript для приватных браузеров. Разработчица финансирует его через Patreon и GitHub Sponsors, и, по ее словам, пока этого недостаточно, чтобы работать над Anubis полноценно.
Читать на dev.by