«Джинн уже выпущен»: с открытых ИИ-моделей можно снять защиту за несколько минут
Эксперимент показал, что защитные ограничения в открытых моделях Meta и Google можно обойти за считанные минуты с помощью общедоступных инструментов.
Эксперимент показал, что защитные ограничения в открытых моделях Meta и Google можно обойти за считанные минуты с помощью общедоступных инструментов.
Эксперимент показал, что защитные ограничения в открытых моделях Meta и Google можно обойти за считанные минуты с помощью общедоступных инструментов.
Группа исследователей в сфере кибербезопасности Alice провела серию экспериментов с использованием метода, который они назвали abliteration. Технология позволяет подавить внутренние механизмы модели, отвечающие за отказ от опасных инструкций. Такой подход трудно применить к полностью закрытым системам вроде ChatGPT или Claude, где пользователи не имеют доступа к весам модели. Но для открытых моделей или моделей с открытыми весами риск значительно выше.
В ходе эксперимента специалисты смогли снять защитные ограничения с моделей семейства Meta Llama и Google Gemma. После этого модифицированные версии начали отвечать на запросы, связанные с вредоносным кодом, опасными веществами, оружием и сексуализированным контентом с участием несовершеннолетних. В обычном состоянии исходные модели такие запросы отклоняли.
Особенно тревожно, что для такой модификации не потребовались ни редкое оборудование, ни глубокая техническая экспертиза. Журналисту Financial Times удалось снять защитные ограничения с Meta Llama 3.3 примерно за 10 минут с помощью инструмента Heretic — без специализированного оборудования и глубокой технической подготовки.
Создатель Heretic утверждает, что инструмент уже использовали для создания около 3500 «децензурированных» моделей, которые суммарно скачали около 13 миллионов раз. Он также заявил, что смог убрать ограничения с Google Gemma 4 всего через 90 минут после выхода модели.
Google назвала метод abliteration «известной технической проблемой, с которой сталкиваются все открытые модели», и заявила, что проводит проверки безопасности перед релизом. Meta не прокомментировала эксперимент, но источник, близкий к компании, указал на внутреннюю систему оценки рисков, которая должна ограничивать выпуск моделей с потенциально катастрофическими последствиями.
GitHub заявил, что удаляет материалы, которые прямо помогают проводить атаки или распространять вредоносное ПО. Но платформа не всегда запрещает код, который теоретически можно использовать для создания эксплойтов или вирусов. Если такой код подается как образовательный или исследовательский инструмент для специалистов по кибербезопасности, GitHub может оставить его доступным.
Глава исследовательской группы Alice Ноам Шварц сформулировал проблему жестко: «Джинн уже выпущен из бутылки». По его словам, открытые модели быстро догоняют закрытые по возможностям, а значит, слабость их защитных механизмов становится не теоретическим, а практическим риском.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.