🚀 Идем на ежегодный Cloud Security TechSpot в Варшаве
Support us

Чат-ботов научили взламывать друг друга

Специалисты из Наньянского технологического университета в Сингапуре придумали, как заставить ИИ-чат-ботов писать промпты, которые позволяют компрометировать других чат-ботов.

Оставить комментарий
Чат-ботов научили взламывать друг друга

Специалисты из Наньянского технологического университета в Сингапуре придумали, как заставить ИИ-чат-ботов писать промпты, которые позволяют компрометировать других чат-ботов.

Джейлбрейк получил название Masterkey. Для начала исследователи провели обратный инжиниринг процесса, посредством которого большие языковые модели (LLM) распознают нежелательные пользовательские запросы и защищаются от них. Далее они научили такую модель самостоятельно учиться генерировать промпты, которые обходят защитные механизмы других её «сородичей». Процесс можно автоматизировать, что позволяет создавать модели, которые способны адаптироваться и генерировать новые вредоносные промпты, даже если разработчики моделей-жертв пофиксят их.

Исследователи провели ряд экспериментов на больших языковых моделях, чтобы доказать угрозу их находки, после чего сообщили об этом их разработчикам. Работа должна привлечь внимание компаний к уязвимым местам и ограничениям их моделей, а также помочь предотвратить хакерские атаки на них.

В OpenAI назвали скилл поважнее промпт-инжиниринга. И он не (совсем) про нейросети
В OpenAI назвали скилл поважнее промпт-инжиниринга. И он не (совсем) про нейросети
По теме
В OpenAI назвали скилл поважнее промпт-инжиниринга. И он не (совсем) про нейросети
Чат-бота уговорили продать новенький люксовый внедорожник за $1
Чат-бота уговорили продать новенький люксовый внедорожник за $1
По теме
Чат-бота уговорили продать новенький люксовый внедорожник за $1
Читайте также
Теперь Gemini делает презентации сама — по тексту или загруженному файлу
Теперь Gemini делает презентации сама — по тексту или загруженному файлу
Теперь Gemini делает презентации сама — по тексту или загруженному файлу
ИИ помогает работникам подделывать чеки, которые невозможно отличить от настоящих
ИИ помогает работникам подделывать чеки, которые невозможно отличить от настоящих
ИИ помогает работникам подделывать чеки, которые невозможно отличить от настоящих
Более 1 млн пользователей обсуждают c ChatGPT суицид — в неделю
Более 1 млн пользователей обсуждают c ChatGPT суицид — в неделю
Более 1 млн пользователей обсуждают c ChatGPT суицид — в неделю
Экс-инженер Nvidia рассказала, как прокачаться в ИИ и не отстать
Экс-инженер Nvidia рассказала, как прокачаться в ИИ и не отстать
Экс-инженер Nvidia рассказала, как прокачаться в ИИ и не отстать

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.