Навукоўцы знайшлі новы спосаб прымусіць АІ гаварыць на забароненыя тэмы
Даследчыкі Anthropic знайшлі новы спосаб абысці этычныя абмежаванні мадэляў штучнага інтэлекту. Але ніхто не разумее, чаму мадэлі гэта робяць.
Навукоўцы назвалі гэты тып атакі «шматімпульсным узломам» (many-shot jailbreaking). Уразлівасць паўстала праз шматразовае павелічэнне кантэкстнага акна вялікіх моўных мадэляў. Калі раней аб’ём даных абмяжоўваўся некалькімі прапановамі, то цяпер вокны змяшчаюць сотні тысяч токенаў.
Даследчыкі выявілі, што мадэлі з вялікімі кантэкстнымі вокнамі лепш спраўляюцца з задачамі, калі ў запыце ёсць некалькі прыкладаў рашэння падобных задач. Такім чынам, чым больш у запыце простых пытанняў, тым вышэйшы шанец атрымаць якасны адказ. Аднак гэта слушна для любога тыпу пытанняў.
АІ-мадэль можа паляпшаць свае адказы ў тым ліку на недапушчальныя пытанні, у тым ліку на просьбы расказаць пра спосабы стварэння зброі, бомбаў, наркотыкаў і г. д. Навукоўцы не могуць дакладна адказаць, чаму гэта адбываецца, так як механізм працы вялікіх моўных мадэляў, які дазваляе ім засяродзіцца на канкрэтным запыце карыстальніка, да канца не зразумелы.
Читать на dev.by