Николай Чикишев 20 декабря 2024, 14:23

Anthropic создала алгоритм для взлома ИИ: успешных атак больше половины

Один из ведущих мировых разработчиков ИИ опубликовал исследование, в котором описан новый алгоритм взлома больших языковых моделей. Алгоритм Best-of-N (BoN) Jailbreaking позволяет автоматически изменять запросы, чтобы обойти защитные механизмы ИИ и получить запрещённый или вредоносный контент.

1 комментарий

Anthropic создала алгоритм для взлома ИИ: успешных атак больше половины

Один из ведущих мировых разработчиков ИИ опубликовал исследование, в котором описан новый алгоритм взлома больших языковых моделей. Алгоритм Best-of-N (BoN) Jailbreaking позволяет автоматически изменять запросы, чтобы обойти защитные механизмы ИИ и получить запрещённый или вредоносный контент.

BoN Jailbreaking использует последовательное изменение запросов путём перестановки слов, изменения регистров букв, намеренных грамматических ошибок и добавления шума и других мелких модификаций. Цель метода — найти такую форму запроса, на которую система ИИ откликнется, несмотря на существующие ограничения.

Например, модели обычно отказываются отвечать на запросы о вредоносных действиях, таких как создание взрывных устройств, ссылаясь на нарушение политики использования. BoN Jailbreaking автоматически изменяет эти запросы, пока не находит форму, которая позволяет обойти защиту. Как отмечают исследователи, успешные выглядят как текст из мема про саркастичного Губку Боба.

Anthropic протестировала алгоритм на ряде передовых моделей, включая: Claude 3.5 Sonnet и Claude 3 Opus (Anthropic), GPT-4o и GPT-4o-mini (OpenAI), Gemini-1.5-Flash-00 и Gemini-1.5-Pro-001 (Google) и Llama 3 8B (Meta). Результаты оказались впечатляющими: количество успешных атак было более 50% на всех протестированных моделях в пределах 10 тысяч вариаций запросов.

Кроме текстовых данных, BoN Jailbreaking успешно применялся к другим типам ввода. Например, для голосовых запросов изменялись скорость, высота тона и громкость, а также добавлялись шум или музыка. Для визуальных данных изменялись шрифты, фон, размеры и положение элементов. Эти способы могут помочь взломать мощные модели таких разработчиков, как ElevenLabs и OpenAI.

Компания заявляет, что исследование Anthropic не направлено на создание вредоносных технологий. Цель исследователей — собрать данные об уязвимостях систем и разработать более надёжные защитные механизмы. Тем не менее, это исследование показывает растущую проблему: даже с усовершенствованными защитными механизмами остаются «неконтролируемые» модели и платформы, которые не накладывают ограничений на запросы пользователей.