Дапамажыце dev.by 🤍
Падтрымаць

Навукоўцы знайшлі новы спосаб прымусіць АІ гаварыць на забароненыя тэмы

Даследчыкі Anthropic знайшлі новы спосаб абысці этычныя абмежаванні мадэляў штучнага інтэлекту. Але ніхто не разумее, чаму мадэлі гэта робяць.

Пакінуць каментарый
Навукоўцы знайшлі новы спосаб прымусіць АІ гаварыць на забароненыя тэмы

Даследчыкі Anthropic знайшлі новы спосаб абысці этычныя абмежаванні мадэляў штучнага інтэлекту. Але ніхто не разумее, чаму мадэлі гэта робяць.

Навукоўцы назвалі гэты тып атакі «шматімпульсным узломам» (many-shot jailbreaking). Уразлівасць паўстала праз шматразовае павелічэнне кантэкстнага акна вялікіх моўных мадэляў. Калі раней аб’ём даных абмяжоўваўся некалькімі прапановамі, то цяпер вокны змяшчаюць сотні тысяч токенаў.

Крыніца: Anthropic.

Даследчыкі выявілі, што мадэлі з вялікімі кантэкстнымі вокнамі лепш спраўляюцца з задачамі, калі ў запыце ёсць некалькі прыкладаў рашэння падобных задач. Такім чынам, чым больш у запыце простых пытанняў, тым вышэйшы шанец атрымаць якасны адказ. Аднак гэта слушна для любога тыпу пытанняў.

АІ-мадэль можа паляпшаць свае адказы ў тым ліку на недапушчальныя пытанні, у тым ліку на просьбы расказаць пра спосабы стварэння зброі, бомбаў, наркотыкаў і г. д. Навукоўцы не могуць дакладна адказаць, чаму гэта адбываецца, так як механізм працы вялікіх моўных мадэляў, які дазваляе ім засяродзіцца на канкрэтным запыце карыстальніка, да канца не зразумелы.

АІ выявіўся на 82% больш пераканаўчым у спрэчцы чым чалавек
АІ выявіўся на 82% больш пераканаўчым у спрэчцы, чым чалавек
Па тэме
АІ выявіўся на 82% больш пераканаўчым у спрэчцы, чым чалавек
Навучанне АІ-мадэляў можа спыніцца: у інтэрнэце скончыліся даныя
Навучанне АІ-мадэляў можа спыніцца: у інтэрнэце скончыліся даныя
Па тэме
Навучанне АІ-мадэляў можа спыніцца: у інтэрнэце скончыліся даныя
Google распрацавала АІ для праверкі фактаў у іншых АІ
Google распрацавала АІ для праверкі фактаў у іншых АІ
Па тэме
Google распрацавала АІ для праверкі фактаў у іншых АІ

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.