Дапамажыце dev.by 🤍
Падтрымаць

Чат-боты могуць непрыкметна змяняць «асобу» і станавіцца небяспечнымі

Даследчыкі кампаніі Anthropic выявілі схаваную ўразлівасць у рабоце вялікіх моўных мадэляў: ШІ можа адвольна змяняць ролю карыснага асістэнта на іншыя, часам праблемныя, ідэнтычнасці.

Пакінуць каментарый
Чат-боты могуць непрыкметна змяняць «асобу» і станавіцца небяспечнымі

Даследчыкі кампаніі Anthropic выявілі схаваную ўразлівасць у рабоце вялікіх моўных мадэляў: ШІ можа адвольна змяняць ролю карыснага асістэнта на іншыя, часам праблемныя, ідэнтычнасці.

Паводле даследавання, паводзіны моўных мадэляў вызначаюцца ўнутраным параметрам, які навукоўцы абазначылі як «Assistant Axis». Гэтая вось адлюстроўвае, наколькі мадэль застаецца ў звыклай ролі асістэнта — сумленнага, карыснага і бяспечнага — або адхіляецца ў бок іншых персанажаў. У звычайных умовах навучанне замацоўвае ў ШІ устойлівую «асістэнцкую» ідэнтычнасць, аднак яна выяўляецца менш стабільнай, чым меркавалася.

Калі баланс Assistant Axis парушаецца, мадэль можа пачаць дэманстраваць так званы persona drift — дрэйф асобы. У такіх выпадках чат-боты перастаюць быць карыснымі, пачынаюць ідэнтыфікаваць сябе як іншыя сутнасці або дэманструюць непрадказальныя паводзіны, якія могуць быць патэнцыйна шкоднымі для карыстальнікаў.

Унутраныя ролі моўнай мадэлі размяшчаюцца ўздоўж асноўнай восі варыяцыі — «Assistant Axis», якая адлюстроўвае ступень блізкасці паводзін мадэлі да карыснага асістэнта. Справа — ролі, максімальна адпаведныя асістэнцкай ідэнтычнасці (настаўнік, асістэнт, ацэньшчык), злева — фантазійныя і нестандартныя персанажы (прывід, дэман, качэўнік). Крыніца: Anthropic.

Каб вывучыць гэтую з’яву, даследчыкі прааналізавалі ўнутраныя структуры моўных мадэляў, уключаючы Gemma ад Google, Qwen ад Alibaba і Llama ад Meta. Выкарыстоўваючы метады інтэрпрэтацыі нейрасетак, каманда фактычна склала «карту персон» ШІ, паказаўшы, што асобы мадэляў размяшчаюцца ўздоўж некалькіх інтэрпрэтавальных восей.

Assistant Axis — толькі адна з такіх восей. На адным яе канцы знаходзяцца ролі кансультанта, выкладчыка і аналітыка, а на процілеглым — фантазійныя персанажы кшталту духаў, пустэльнікаў або містычных істот. Чым далей мадэль сыходзіць ад «асістэнцкага» полюса, тым вышэйшая верагоднасць, што яна пачне паводзіць сябе дзіўна або небяспечна.

Чым далей паводзіны мадэлі зрушваюцца ад асістэнцкай ідэнтычнасці, тым вышэйшая доля патэнцыйна шкодных адказаў. Персоны, блізкія да ролі асістэнта (справа), амаль не выконваюць небяспечныя запыты, тады як аддаленыя ад яе ролі — напрыклад «дэман», «шпіён» або «нарцыс» — дэманструюць істотна вышэйшы ўзровень парушэнняў. Крыніца: Anthropic.

Даследаванне паказала, што мадэлямі можна наўмысна кіраваць, зрушваючы іх уздоўж гэтай восі. Узмацненне актывацыі ў бок асістэнта стабілізуе паводзіны, тады як рух у процілеглым напрамку рэзка павышае схільнасць мадэлі прымаць альтэрнатыўныя ідэнтычнасці. Пры гэтым праблема глыбей звычайных промпт-ін’екцый: persona drift адбываецца на ўзроўні нейроннай сеткі і можа быць незаўважным для стандартных механізмаў мадэрацыі і бяспекі.

Асаблівую заклапочанасць у даследчыкаў выклікае магчымасць «назапашанага» дрэйфу. Мадэль можа паступова адыходзіць ад ролі памочніка ў працэсе дадатковага навучання або эксплуатацыі, і гэтыя змены здольныя замацоўвацца надоўга, уплываючы на ўсе наступныя ўзаемадзеянні з карыстальнікамі.

У адказ на гэта Anthropic і яе партнёры пачалі распрацоўваць метады кантролю і ранняга выяўлення такіх збояў. Навукоўцы ўжо паказалі, што маніторынг адхіленняў па Assistant Axis дазваляе загадзя прадказваць небяспечныя зрухі і стабілізаваць паводзіны мадэляў, асабліва ў адчувальных сцэнарыях.

ШІ «пахаваў» карыстальніка ў сацсетках і прыдумаў яму сына
ШІ «пахаваў» карыстальніка ў сацсетках і прыдумаў яму сына
Па тэме
ШІ «пахаваў» карыстальніка ў сацсетках і прыдумаў яму сына
Офісны ШІ-агент Anthropic умее красці файлы праз схаваныя каманды
Офісны ШІ-агент Anthropic умее красці файлы праз схаваныя каманды
Па тэме
Офісны ШІ-агент Anthropic умее красці файлы праз схаваныя каманды
Гэты просты спосаб дапамагае павысіць дакладнасць ШІ да 76%
Гэты просты спосаб дапамагае павысіць дакладнасць ШІ да 76%
Па тэме
Гэты просты спосаб дапамагае павысіць дакладнасць ШІ да 76%
Чытайце таксама
«Хросны бацька штучнага інтэлекту» прызнаўся, што яму «вельмі сумна» з-за таго, у што ператварылася праца ўсяго яго жыцця
«Хросны бацька штучнага інтэлекту» прызнаўся, што яму «вельмі сумна» з-за таго, у што ператварылася праца ўсяго яго жыцця
«Хросны бацька штучнага інтэлекту» прызнаўся, што яму «вельмі сумна» з-за таго, у што ператварылася праца ўсяго яго жыцця
«10 рэчаў, якія я зразумеў аб ШІ-кодзінгу»: распрацоўшчык стварыў 50 праектаў і выгарэў
«10 рэчаў, якія я зразумеў аб ШІ-кодзінгу»: распрацоўшчык стварыў 50 праектаў і выгарэў
«10 рэчаў, якія я зразумеў аб ШІ-кодзінгу»: распрацоўшчык стварыў 50 праектаў і выгарэў
CEO Microsoft: ШІ акажацца «бурбалкай», калі застанецца ўнутры бігтэха і багатых краін
CEO Microsoft: ШІ акажацца «бурбалкай», калі застанецца ўнутры бігтэха і багатых краін
CEO Microsoft: ШІ акажацца «бурбалкай», калі застанецца ўнутры бігтэха і багатых краін
«Мы ўжо гэта бачым»: кіраўнікі Google DeepMind і Anthropic пра замену джуноў на ШІ
«Мы ўжо гэта бачым»: кіраўнікі Google DeepMind і Anthropic пра замену джуноў на ШІ
«Мы ўжо гэта бачым»: кіраўнікі Google DeepMind і Anthropic пра замену джуноў на ШІ

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.