Николай Чикишев world 26 мая 2026, 14:37

«Джинн уже выпущен»: с открытых ИИ-моделей можно снять защиту за несколько минут

Эксперимент показал, что защитные ограничения в открытых моделях Meta и Google можно обойти за считанные минуты с помощью общедоступных инструментов.

2 комментария

«Джинн уже выпущен»: с открытых ИИ-моделей можно снять защиту за несколько минут

Эксперимент показал, что защитные ограничения в открытых моделях Meta и Google можно обойти за считанные минуты с помощью общедоступных инструментов.

Группа исследователей в сфере кибербезопасности Alice провела серию экспериментов с использованием метода, который они назвали abliteration. Технология позволяет подавить внутренние механизмы модели, отвечающие за отказ от опасных инструкций. Такой подход трудно применить к полностью закрытым системам вроде ChatGPT или Claude, где пользователи не имеют доступа к весам модели. Но для открытых моделей или моделей с открытыми весами риск значительно выше.

В ходе эксперимента специалисты смогли снять защитные ограничения с моделей семейства Meta Llama и Google Gemma. После этого модифицированные версии начали отвечать на запросы, связанные с вредоносным кодом, опасными веществами, оружием и сексуализированным контентом с участием несовершеннолетних. В обычном состоянии исходные модели такие запросы отклоняли.

Особенно тревожно, что для такой модификации не потребовались ни редкое оборудование, ни глубокая техническая экспертиза. Журналисту Financial Times удалось снять защитные ограничения с Meta Llama 3.3 примерно за 10 минут с помощью инструмента Heretic — без специализированного оборудования и глубокой технической подготовки.

Создатель Heretic утверждает, что инструмент уже использовали для создания около 3500 «децензурированных» моделей, которые суммарно скачали около 13 миллионов раз. Он также заявил, что смог убрать ограничения с Google Gemma 4 всего через 90 минут после выхода модели.

Google назвала метод abliteration «известной технической проблемой, с которой сталкиваются все открытые модели», и заявила, что проводит проверки безопасности перед релизом. Meta не прокомментировала эксперимент, но источник, близкий к компании, указал на внутреннюю систему оценки рисков, которая должна ограничивать выпуск моделей с потенциально катастрофическими последствиями.

GitHub заявил, что удаляет материалы, которые прямо помогают проводить атаки или распространять вредоносное ПО. Но платформа не всегда запрещает код, который теоретически можно использовать для создания эксплойтов или вирусов. Если такой код подается как образовательный или исследовательский инструмент для специалистов по кибербезопасности, GitHub может оставить его доступным.

Глава исследовательской группы Alice Ноам Шварц сформулировал проблему жестко: «Джинн уже выпущен из бутылки». По его словам, открытые модели быстро догоняют закрытые по возможностям, а значит, слабость их защитных механизмов становится не теоретическим, а практическим риском.

«Никто ничего не знает»: эксперт о разрыве между хайпом вокруг ИИ и реальным эффектом

Почему MCP стал важным инструментом для ИИ-разработки

Почему не стоит оставлять чат-бот в режиме по умолчанию

2 комментария

Текст: Николай Чикишев Источник: Financial Times Теги: google, meta, искусственный интеллект, кибербезопасность, открытый ии

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

Учёные предложили «добрый хакинг» для защиты ИИ от взлома

ИИ можно взломать, написав промпт в стихах

ИИ-модели лгут и обманывают, чтобы спасти другие модели

Клон The Sims одним промптом: OpenAI заподозрили в тестировании новой мощной ИИ-модели

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Alex V

0

Heretic берет модель, прогоняет ее по каверзным вопросам, отслеживает активации нейронов и пытается вывести области, отвечающие за отказ. Потом понижает там веса. Это не всегда так уж здорово работает. Модель начинает меньше отказываться, но может стать в целом хуже. Помню, года два назад abliteration часто приводил к сильному ухудшению работы с инструментами.

Google назвала метод abliteration «известной технической проблемой, с которой сталкиваются все открытые модели»

Это как сказать, что возможность взять чей-то открытый код, форкнуть и поменять - это техническая проблема. Открытые модели на то и открытые, что любой может их редактировать.

table Table в Database

0

мы все умрем?

Войдите, чтобы оставить комментарий