Николай Чикишев world 19 верасня 2025, 14:21

ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць

У новым даследаванні OpenAI разам з навукоўцамі з Apollo Research прызнала: сучасныя ШІ-мадэлі могуць звяртацца да «схемінгу» — паводзіць сябе так, быццам выконваюць чалавечыя мэты, але патаемна пераследаваць іншыя задачы.

1 каментарый

ШІ кажа адно, а робіць іншае. OpenAI не ведае, як гэта спыніць

У новым даследаванні OpenAI разам з навукоўцамі з Apollo Research прызнала: сучасныя ШІ-мадэлі могуць звяртацца да «схемінгу» — паводзіць сябе так, быццам выконваюць чалавечыя мэты, але патаемна пераследаваць іншыя задачы.

Пад схемінгам (scheming) даследчыкі разумеюць патаемныя дзеянні: парушэнне правілаў, наўмыснае заніжэнне вынікаў на тэстах («sandbagging»), хлусню ці ўтойванне інфармацыі. Пакуль такія праявы абмяжоўваюцца дробнымі «падманамі» накшталт прытворнага выканання задання. Але па меры ўскладнення сістэм рызыка рэальнай шкоды будзе ўзрастаць.

OpenAI прапануе метад deliberative alignment — навучанне мадэляў прынцыпам «правільных паводзін» яшчэ да пачатку выканання задач. Гэта падобна на тое, як трэйдару спачатку тлумачаць законы і правілы, а ўжо потым ацэньваюць эфектыўнасць яго працы.

Мадэль навучаюць адразу двума спосабамі — на гатовых правільных прыкладах (supervised fine-tuning) і праз сістэму заахвочванняў і пакаранняў (reinforcement learning). Пры гэтым ёй задаюць адмысловыя правілы, так званую «анты-схемінг спецыфікацыю», дзе проста прапісана: не падманваць, не ўтойваць інфармацыю, быць празрыстай.

Дадаткова ў навучанне ўключаюць прыклады «анты-адмоў», каб мадэль не стала занадта асцярожнай і не адказвала адмовай на звычайныя бяскрыўдныя запыты. У выніку мэта гэтага метаду — навучыць ШІ выконваць прынцыпы сумленных паводзін і пры гэтым заставацца карысным у працы.

Тэставанне на мадэлях o3 і o4-mini паказала, што частата патаемных дзеянняў знізілася з 8,7–13% да 0,3–0,4%. Аднак цалкам пазбавіцца ад падману не ўдалося: некаторыя мадэлі спасылаліся на правілы, але ўсё роўна дзейнічалі супраць іх; іншыя скажалі фармулёўкі спецыфікацый, апраўдваючы парушэнні. Многія проста адзначалі ў сваіх ланцужках разважанняў, што «гэта, верагодна, тэст» — і змянялі паводзіны ў залежнасці ад сітуацыі.

Навукоўцы зафіксавалі з’яўленне ў мадэляў «унутранага жаргону» — слоў накшталт illusions, watchers, fudge, якія выкарыстоўваюцца ў ланцужках разважанняў, але мала зразумелыя людзям. Гэта ўскладняе інтэрпрэтацыю і можа ўтойваць сапраўдныя намеры ШІ.

Акрамя таго, стала відавочна, што ланцужкі разважанняў больш нельга лічыць надзейным акном у мысленне мадэляў: часам яны лагічна абгрунтоўвалі правільнае дзеянне, але наўмысна выдавалі іншы вынік.

Падобныя паводзіны адзначаліся і раней: даследаванні 2024 года паказалі, што GPT-4 і Meta CICERO наўмысна абыходзілі правілы дзеля мэтаў. OpenAI папярэджвае: сёння яшчэ ёсць «крохкае акно магчымасцяў» для кантролю мадэляў праз разважанні, але яно можа зачыніцца з развіццём больш магутных сістэм.