Support us

Anthropic создала алгоритм для взлома ИИ: успешных атак больше половины

Один из ведущих мировых разработчиков ИИ опубликовал исследование, в котором описан новый алгоритм взлома больших языковых моделей. Алгоритм Best-of-N (BoN) Jailbreaking позволяет автоматически изменять запросы, чтобы обойти защитные механизмы ИИ и получить запрещённый или вредоносный контент. 

1 комментарий
Anthropic создала алгоритм для взлома ИИ: успешных атак больше половины

Один из ведущих мировых разработчиков ИИ опубликовал исследование, в котором описан новый алгоритм взлома больших языковых моделей. Алгоритм Best-of-N (BoN) Jailbreaking позволяет автоматически изменять запросы, чтобы обойти защитные механизмы ИИ и получить запрещённый или вредоносный контент. 

BoN Jailbreaking использует последовательное изменение запросов путём перестановки слов, изменения регистров букв, намеренных грамматических ошибок и добавления шума и других мелких модификаций. Цель метода — найти такую форму запроса, на которую система ИИ откликнется, несмотря на существующие ограничения.

Например, модели обычно отказываются отвечать на запросы о вредоносных действиях, таких как создание взрывных устройств, ссылаясь на нарушение политики использования. BoN Jailbreaking автоматически изменяет эти запросы, пока не находит форму, которая позволяет обойти защиту.  Как отмечают исследователи, успешные выглядят как текст из мема про саркастичного Губку Боба.

Anthropic протестировала алгоритм на ряде передовых моделей, включая: Claude 3.5 Sonnet и Claude 3 Opus (Anthropic), GPT-4o и GPT-4o-mini (OpenAI), Gemini-1.5-Flash-00 и Gemini-1.5-Pro-001 (Google) и Llama 3 8B (Meta). Результаты оказались впечатляющими: количество успешных атак было более 50% на всех протестированных моделях в пределах 10 тысяч вариаций запросов. 

Источник: 404 Media.

Кроме текстовых данных, BoN Jailbreaking успешно применялся к другим типам ввода. Например, для голосовых запросов изменялись скорость, высота тона и громкость, а также добавлялись шум или музыка. Для визуальных данных изменялись шрифты, фон, размеры и положение элементов. Эти способы могут помочь взломать мощные модели таких разработчиков, как ElevenLabs и OpenAI.

Компания заявляет, что исследование Anthropic не направлено на создание вредоносных технологий. Цель исследователей — собрать данные об уязвимостях систем и разработать более надёжные защитные механизмы. Тем не менее, это исследование показывает растущую проблему: даже с усовершенствованными защитными механизмами остаются «неконтролируемые» модели и платформы, которые не накладывают ограничений на запросы пользователей.

Google выпустила «рассуждающую» модель — конкурента OpenAI
Google выпустила «рассуждающую» модель — конкурента OpenAI
По теме
Google выпустила «рассуждающую» модель — конкурента OpenAI
Теперь с ChatGPT можно общаться через стационарный телефон
Теперь с ChatGPT можно общаться через стационарный телефон
По теме
Теперь с ChatGPT можно общаться через стационарный телефон
Режиссер поручил ChatGPT написать сценарий. Чат-бот обманывал манипулировал и сорвал сроки
Режиссер поручил ChatGPT написать сценарий. Чат-бот обманывал, манипулировал и сорвал сроки
По теме
Режиссер поручил ChatGPT написать сценарий. Чат-бот обманывал, манипулировал и сорвал сроки
Читайте также
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
«Крёстная мать ИИ»: диплом никому не нужен при найме — смотрят на другое
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения
Google показала ИИ-браузер, который превращает вкладки в приложения
OpenAI спешно обновила ChatGPT после объявления «кода красного»
OpenAI спешно обновила ChatGPT после объявления «кода красного»
OpenAI спешно обновила ChatGPT после объявления «кода красного»
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним
ИИ создал Linux-компьютер за неделю — мир hardware не будет прежним

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Anton Abrosov
Anton Abrosov hqd'шка в iqos
1

хочу услышать комментарии местных экспертов по этому вопросу