Навукоўцы знайшлі новы спосаб прымусіць АІ гаварыць на забароненыя тэмы

Даследчыкі Anthropic знайшлі новы спосаб абысці этычныя абмежаванні мадэляў штучнага інтэлекту. Але ніхто не разумее, чаму мадэлі гэта робяць.

Пакінуць каментарый

Навукоўцы назвалі гэты тып атакі «шматімпульсным узломам» (many-shot jailbreaking). Уразлівасць паўстала праз шматразовае павелічэнне кантэкстнага акна вялікіх моўных мадэляў. Калі раней аб’ём даных абмяжоўваўся некалькімі прапановамі, то цяпер вокны змяшчаюць сотні тысяч токенаў.

Крыніца: Anthropic.

Даследчыкі выявілі, што мадэлі з вялікімі кантэкстнымі вокнамі лепш спраўляюцца з задачамі, калі ў запыце ёсць некалькі прыкладаў рашэння падобных задач. Такім чынам, чым больш у запыце простых пытанняў, тым вышэйшы шанец атрымаць якасны адказ. Аднак гэта слушна для любога тыпу пытанняў.

АІ-мадэль можа паляпшаць свае адказы ў тым ліку на недапушчальныя пытанні, у тым ліку на просьбы расказаць пра спосабы стварэння зброі, бомбаў, наркотыкаў і г. д. Навукоўцы не могуць дакладна адказаць, чаму гэта адбываецца, так як механізм працы вялікіх моўных мадэляў, які дазваляе ім засяродзіцца на канкрэтным запыце карыстальніка, да канца не зразумелы.

АІ выявіўся на 82% больш пераканаўчым у спрэчцы, чым чалавек
Па тэме
АІ выявіўся на 82% больш пераканаўчым у спрэчцы, чым чалавек
Навучанне АІ-мадэляў можа спыніцца: у інтэрнэце скончыліся даныя
Па тэме
Навучанне АІ-мадэляў можа спыніцца: у інтэрнэце скончыліся даныя
Google распрацавала АІ для праверкі фактаў у іншых АІ
Па тэме
Google распрацавала АІ для праверкі фактаў у іншых АІ

Читать на dev.by