Bitcoin на максимуме за все время. Попробуйте с нами! 🏂
Support us

Anthropic создала алгоритм для взлома ИИ: успешных атак больше половины

Один из ведущих мировых разработчиков ИИ опубликовал исследование, в котором описан новый алгоритм взлома больших языковых моделей. Алгоритм Best-of-N (BoN) Jailbreaking позволяет автоматически изменять запросы, чтобы обойти защитные механизмы ИИ и получить запрещённый или вредоносный контент. 

1 комментарий
Anthropic создала алгоритм для взлома ИИ: успешных атак больше половины

Один из ведущих мировых разработчиков ИИ опубликовал исследование, в котором описан новый алгоритм взлома больших языковых моделей. Алгоритм Best-of-N (BoN) Jailbreaking позволяет автоматически изменять запросы, чтобы обойти защитные механизмы ИИ и получить запрещённый или вредоносный контент. 

BoN Jailbreaking использует последовательное изменение запросов путём перестановки слов, изменения регистров букв, намеренных грамматических ошибок и добавления шума и других мелких модификаций. Цель метода — найти такую форму запроса, на которую система ИИ откликнется, несмотря на существующие ограничения.

Например, модели обычно отказываются отвечать на запросы о вредоносных действиях, таких как создание взрывных устройств, ссылаясь на нарушение политики использования. BoN Jailbreaking автоматически изменяет эти запросы, пока не находит форму, которая позволяет обойти защиту.  Как отмечают исследователи, успешные выглядят как текст из мема про саркастичного Губку Боба.

Anthropic протестировала алгоритм на ряде передовых моделей, включая: Claude 3.5 Sonnet и Claude 3 Opus (Anthropic), GPT-4o и GPT-4o-mini (OpenAI), Gemini-1.5-Flash-00 и Gemini-1.5-Pro-001 (Google) и Llama 3 8B (Meta). Результаты оказались впечатляющими: количество успешных атак было более 50% на всех протестированных моделях в пределах 10 тысяч вариаций запросов. 

Источник: 404 Media.

Кроме текстовых данных, BoN Jailbreaking успешно применялся к другим типам ввода. Например, для голосовых запросов изменялись скорость, высота тона и громкость, а также добавлялись шум или музыка. Для визуальных данных изменялись шрифты, фон, размеры и положение элементов. Эти способы могут помочь взломать мощные модели таких разработчиков, как ElevenLabs и OpenAI.

Компания заявляет, что исследование Anthropic не направлено на создание вредоносных технологий. Цель исследователей — собрать данные об уязвимостях систем и разработать более надёжные защитные механизмы. Тем не менее, это исследование показывает растущую проблему: даже с усовершенствованными защитными механизмами остаются «неконтролируемые» модели и платформы, которые не накладывают ограничений на запросы пользователей.

Google выпустила «рассуждающую» модель — конкурента OpenAI
Google выпустила «рассуждающую» модель — конкурента OpenAI
По теме
Google выпустила «рассуждающую» модель — конкурента OpenAI
Теперь с ChatGPT можно общаться через стационарный телефон
Теперь с ChatGPT можно общаться через стационарный телефон
По теме
Теперь с ChatGPT можно общаться через стационарный телефон
Режиссер поручил ChatGPT написать сценарий. Чат-бот обманывал манипулировал и сорвал сроки
Режиссер поручил ChatGPT написать сценарий. Чат-бот обманывал, манипулировал и сорвал сроки
По теме
Режиссер поручил ChatGPT написать сценарий. Чат-бот обманывал, манипулировал и сорвал сроки
Место солидарности беларусского ИТ-комьюнити

Далучайся!

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Anton Abrosov
Anton Abrosov hqd'шка в iqos
1

хочу услышать комментарии местных экспертов по этому вопросу