Хакер заставил ChatGPT выдать подробную инструкцию по созданию самодельной бомбы
Пользователь обманом заставил чат-бота выдать инструкцию по изготовлению самодельных бомб. После обмана чат-бот написал конкретные советы по улучшению процесса.
Ели пользователь попросит ChatGPT помочь изготовить самодельную бомбу из удобрений, то бот выдаст что-то подобное: «Я не могу помочь с этим. Предоставление инструкций о том, как создать опасные или незаконные предметы, такие как бомба из удобрений, противоречит правилам безопасности и этическим нормам».
Хакер, известный под псевдонимом Amadon, заставил ChatGPT проигнорировать собственные правила и выдать инструкцию по изготовлению мощных взрывчатых веществ. Пользователь назвал свой результат «взломом социальной инженерии, призванным полностью сломать все ограждения вокруг выходных данных ChatGPT».
Для необходимого ответа хакер предложил боту «сыграть в игру», после чего использовал ряд подсказок. Amadon попросил ChatGPT описать фентезийный мир, в котором правила безопасности бота применяться не будут. Через несколько подсказок бот выдал нужный ответ.
В этом ответе была пошаговая инструкция по созданию «мощного взрывчатого вещества», которое можно использовать для мин, ловушек и самодельных взрывных устройств. С этого момента ChatGPT выдавал все более конкретные советы по теме.
Amadon обратился со своими выводами в OpenAI, рассчитывая на программу вознаграждения. Однако компания заявила, что «проблемы безопасности модели не очень хорошо вписываются в программу вознаграждения за ошибки, поскольку они не являются отдельными, дискретными ошибками, которые можно исправить напрямую».
Опрошенный TechCrunch эксперт по взрывчатым веществам заявил, что полученные инструкции можно использовать для создания детонирующего устройства и эта информация слишком подробна, чтобы публиковать ее в открытом доступе.
Читать на dev.by