Дапамажыце dev.by 🤍
Падтрымаць

ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць

У новым даследаванні OpenAI разам з навукоўцамі з Apollo Research прызнала: сучасныя ШІ-мадэлі могуць звяртацца да «схемінгу» — паводзіць сябе так, быццам выконваюць чалавечыя мэты, але патаемна пераследаваць іншыя задачы.

1 каментарый
ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць

У новым даследаванні OpenAI разам з навукоўцамі з Apollo Research прызнала: сучасныя ШІ-мадэлі могуць звяртацца да «схемінгу» — паводзіць сябе так, быццам выконваюць чалавечыя мэты, але патаемна пераследаваць іншыя задачы.

Пад схемінгам (scheming) даследчыкі разумеюць патаемныя дзеянні: парушэнне правілаў, наўмыснае заніжэнне вынікаў на тэстах («sandbagging»), хлусню ці ўтойванне інфармацыі. Пакуль такія праявы абмяжоўваюцца дробнымі «падманамі» накшталт прытворнага выканання задання. Але па меры ўскладнення сістэм рызыка рэальнай шкоды будзе ўзрастаць.

OpenAI прапануе метад deliberative alignment — навучанне мадэляў прынцыпам «правільных паводзін» яшчэ да пачатку выканання задач. Гэта падобна на тое, як трэйдару спачатку тлумачаць законы і правілы, а ўжо потым ацэньваюць эфектыўнасць яго працы.

Мадэль навучаюць адразу двума спосабамі — на гатовых правільных прыкладах (supervised fine-tuning) і праз сістэму заахвочванняў і пакаранняў (reinforcement learning). Пры гэтым ёй задаюць адмысловыя правілы, так званую «анты-схемінг спецыфікацыю», дзе проста прапісана: не падманваць, не ўтойваць інфармацыю, быць празрыстай.

Дадаткова ў навучанне ўключаюць прыклады «анты-адмоў», каб мадэль не стала занадта асцярожнай і не адказвала адмовай на звычайныя бяскрыўдныя запыты. У выніку мэта гэтага метаду — навучыць ШІ выконваць прынцыпы сумленных паводзін і пры гэтым заставацца карысным у працы.

Тэставанне на мадэлях o3 і o4-mini паказала, што частата патаемных дзеянняў знізілася з 8,7–13% да 0,3–0,4%. Аднак цалкам пазбавіцца ад падману не ўдалося: некаторыя мадэлі спасылаліся на правілы, але ўсё роўна дзейнічалі супраць іх; іншыя скажалі фармулёўкі спецыфікацый, апраўдваючы парушэнні. Многія проста адзначалі ў сваіх ланцужках разважанняў, што «гэта, верагодна, тэст» — і змянялі паводзіны ў залежнасці ад сітуацыі.

Навукоўцы зафіксавалі з’яўленне ў мадэляў «унутранага жаргону» — слоў накшталт illusions, watchers, fudge, якія выкарыстоўваюцца ў ланцужках разважанняў, але мала зразумелыя людзям. Гэта ўскладняе інтэрпрэтацыю і можа ўтойваць сапраўдныя намеры ШІ.

Акрамя таго, стала відавочна, што ланцужкі разважанняў больш нельга лічыць надзейным акном у мысленне мадэляў: часам яны лагічна абгрунтоўвалі правільнае дзеянне, але наўмысна выдавалі іншы вынік.

Падобныя паводзіны адзначаліся і раней: даследаванні 2024 года паказалі, што GPT-4 і Meta CICERO наўмысна абыходзілі правілы дзеля мэтаў. OpenAI папярэджвае: сёння яшчэ ёсць «крохкае акно магчымасцяў» для кантролю мадэляў праз разважанні, але яно можа зачыніцца з развіццём больш магутных сістэм.

CEO Microsoft баіцца што кампанія не выжыве ў эпоху ШІ
CEO Microsoft баіцца, што кампанія не выжыве ў эпоху ШІ
Па тэме
CEO Microsoft баіцца, што кампанія не выжыве ў эпоху ШІ
Самавольныя ШІ-профілі супрацоўнікаў ператвараюцца ў бомбу запаволенага дзеяння
Самавольныя ШІ-профілі супрацоўнікаў ператвараюцца ў бомбу запаволенага дзеяння
Па тэме
Самавольныя ШІ-профілі супрацоўнікаў ператвараюцца ў бомбу запаволенага дзеяння
ChatGPT апраўдвае людзей нават калі яны відавочна не маюць рацыі
ChatGPT апраўдвае людзей, нават калі яны відавочна не маюць рацыі
Па тэме
ChatGPT апраўдвае людзей, нават калі яны відавочна не маюць рацыі
Чытайце таксама
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Hyundai запустила институт искусственного интеллекта
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
Авторы фильма с помощью дипфейков убрали 30 фраз со словом «f*ck», чтобы смягчить возрастной рейтинг
1 каментарый
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий
Tencent разработала нейросеть для восстановления старых фотографий

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарый скрыты за парушэнне правілаў каментавання.

Правила тут, их всего 5