Чат-ботаў навучылі ўзломваць адзін аднаго
Спецыялісты з Наньянскага тэхналагічнага ўніверсітэта ў Сінгапуры прыдумалі, як прымусіць АІ-чат-ботаў пісаць промпты, якія дазваляюць кампраметаваць іншых чат-ботаў.
Джэйлбрэйк атрымаў назву Masterkey. Для пачатку даследчыкі правялі зваротны інжынірынг працэсу, з дапамогай якога вялікія моўныя мадэлі (LLM) распазнаюць непажаданыя карыстальніцкія запыты і абараняюцца ад іх. Далей яны навучылі такую мадэль самастойна вучыцца генераваць промпты, якія абыходзяць ахоўныя механізмы іншых яе «суродзічаў». Працэс можна аўтаматызаваць, што дазваляе ствараць мадэлі, здольныя адаптавацца і генераваць новыя шкодныя промпты, нават калі распрацоўшчыкі мадэляў-ахвяр пафіксяць іх.
Даследчыкі правялі шэраг эксперыментаў на вялікіх моўных мадэлях, каб даказаць пагрозу іх знаходкі, пасля чаго паведамілі пра гэта іх распрацоўшчыкам. Праца мае прыцягнуць увагу кампаній да ўразлівых месцаў і абмежаванняў іх мадэляў, а таксама дапамагчы прадухіліць хакерскія атакі на іх.
Читать на dev.by