Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

Anthropic создала алгоритм для взлома ИИ: успешных атак больше половины

Один из ведущих мировых разработчиков ИИ опубликовал исследование, в котором описан новый алгоритм взлома больших языковых моделей. Алгоритм Best-of-N (BoN) Jailbreaking позволяет автоматически изменять запросы, чтобы обойти защитные механизмы ИИ и получить запрещённый или вредоносный контент. 

1 комментарий
Anthropic создала алгоритм для взлома ИИ: успешных атак больше половины

Один из ведущих мировых разработчиков ИИ опубликовал исследование, в котором описан новый алгоритм взлома больших языковых моделей. Алгоритм Best-of-N (BoN) Jailbreaking позволяет автоматически изменять запросы, чтобы обойти защитные механизмы ИИ и получить запрещённый или вредоносный контент. 

BoN Jailbreaking использует последовательное изменение запросов путём перестановки слов, изменения регистров букв, намеренных грамматических ошибок и добавления шума и других мелких модификаций. Цель метода — найти такую форму запроса, на которую система ИИ откликнется, несмотря на существующие ограничения.

Например, модели обычно отказываются отвечать на запросы о вредоносных действиях, таких как создание взрывных устройств, ссылаясь на нарушение политики использования. BoN Jailbreaking автоматически изменяет эти запросы, пока не находит форму, которая позволяет обойти защиту.  Как отмечают исследователи, успешные выглядят как текст из мема про саркастичного Губку Боба.

Anthropic протестировала алгоритм на ряде передовых моделей, включая: Claude 3.5 Sonnet и Claude 3 Opus (Anthropic), GPT-4o и GPT-4o-mini (OpenAI), Gemini-1.5-Flash-00 и Gemini-1.5-Pro-001 (Google) и Llama 3 8B (Meta). Результаты оказались впечатляющими: количество успешных атак было более 50% на всех протестированных моделях в пределах 10 тысяч вариаций запросов. 

Источник: 404 Media.

Кроме текстовых данных, BoN Jailbreaking успешно применялся к другим типам ввода. Например, для голосовых запросов изменялись скорость, высота тона и громкость, а также добавлялись шум или музыка. Для визуальных данных изменялись шрифты, фон, размеры и положение элементов. Эти способы могут помочь взломать мощные модели таких разработчиков, как ElevenLabs и OpenAI.

Компания заявляет, что исследование Anthropic не направлено на создание вредоносных технологий. Цель исследователей — собрать данные об уязвимостях систем и разработать более надёжные защитные механизмы. Тем не менее, это исследование показывает растущую проблему: даже с усовершенствованными защитными механизмами остаются «неконтролируемые» модели и платформы, которые не накладывают ограничений на запросы пользователей.

Google выпустила «рассуждающую» модель — конкурента OpenAI
Google выпустила «рассуждающую» модель — конкурента OpenAI
По теме
Google выпустила «рассуждающую» модель — конкурента OpenAI
Теперь с ChatGPT можно общаться через стационарный телефон
Теперь с ChatGPT можно общаться через стационарный телефон
По теме
Теперь с ChatGPT можно общаться через стационарный телефон
Режиссер поручил ChatGPT написать сценарий. Чат-бот обманывал манипулировал и сорвал сроки
Режиссер поручил ChatGPT написать сценарий. Чат-бот обманывал, манипулировал и сорвал сроки
По теме
Режиссер поручил ChatGPT написать сценарий. Чат-бот обманывал, манипулировал и сорвал сроки
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Альтман: OpenAI планирует сильно сократить наём
Альтман: OpenAI планирует сильно сократить наём
Альтман: OpenAI планирует сильно сократить наём
1 комментарий
СhatGPT не виноват: спад в уязвимых для ИИ профессиях начался раньше
СhatGPT не виноват: спад в уязвимых для ИИ профессиях начался раньше
СhatGPT не виноват: спад в уязвимых для ИИ профессиях начался раньше
ИИ не любит ленивых: рынок софта штормит из-за опасений инвесторов
ИИ не любит ленивых: рынок софта штормит из-за опасений инвесторов
ИИ не любит ленивых: рынок софта штормит из-за опасений инвесторов
Разработчик создал язык программирования с помощью Claude Code
Разработчик создал язык программирования с помощью Claude Code
Разработчик создал язык программирования с помощью Claude Code
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Anton Abrosov
Anton Abrosov hqd'шка в iqos
1

хочу услышать комментарии местных экспертов по этому вопросу