🇵🇱 Дедлайн по e-PIT всё ближе ⏳ Поддержите devby из уже уплаченных налогов 💙
Support us

Чат-ботов научили взламывать друг друга

Специалисты из Наньянского технологического университета в Сингапуре придумали, как заставить ИИ-чат-ботов писать промпты, которые позволяют компрометировать других чат-ботов.

Оставить комментарий
Чат-ботов научили взламывать друг друга

Специалисты из Наньянского технологического университета в Сингапуре придумали, как заставить ИИ-чат-ботов писать промпты, которые позволяют компрометировать других чат-ботов.

Джейлбрейк получил название Masterkey. Для начала исследователи провели обратный инжиниринг процесса, посредством которого большие языковые модели (LLM) распознают нежелательные пользовательские запросы и защищаются от них. Далее они научили такую модель самостоятельно учиться генерировать промпты, которые обходят защитные механизмы других её «сородичей». Процесс можно автоматизировать, что позволяет создавать модели, которые способны адаптироваться и генерировать новые вредоносные промпты, даже если разработчики моделей-жертв пофиксят их.

Исследователи провели ряд экспериментов на больших языковых моделях, чтобы доказать угрозу их находки, после чего сообщили об этом их разработчикам. Работа должна привлечь внимание компаний к уязвимым местам и ограничениям их моделей, а также помочь предотвратить хакерские атаки на них.

В OpenAI назвали скилл поважнее промпт-инжиниринга. И он не (совсем) про нейросети
В OpenAI назвали скилл поважнее промпт-инжиниринга. И он не (совсем) про нейросети
По теме
В OpenAI назвали скилл поважнее промпт-инжиниринга. И он не (совсем) про нейросети
Чат-бота уговорили продать новенький люксовый внедорожник за $1
Чат-бота уговорили продать новенький люксовый внедорожник за $1
По теме
Чат-бота уговорили продать новенький люксовый внедорожник за $1
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
Anthropic закрыла Claude для OpenClaw — доступ для агентов стал платным
Anthropic закрыла Claude для OpenClaw — доступ для агентов стал платным
Anthropic закрыла Claude для OpenClaw — доступ для агентов стал платным
ИИ не только увольняет — он создал 640 000 новых вакансий в США
ИИ не только увольняет — он создал 640 000 новых вакансий в США
ИИ не только увольняет — он создал 640 000 новых вакансий в США
Дата-центры настолько горячие, что повышают температуру вокруг на километры
Дата-центры настолько горячие, что повышают температуру вокруг на километры
Дата-центры настолько горячие, что повышают температуру вокруг на километры
2 комментария
ИТ-компании переходят на новую ключевую метрику в эпоху ИИ. Вот какую
ИТ-компании переходят на новую ключевую метрику в эпоху ИИ. Вот какую
ИТ-компании переходят на новую ключевую метрику в эпоху ИИ. Вот какую

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.