Николай Чикишев world 30 чэрвеня 2025, 15:27

ШІ усё часцей раіць нічога не рабіць і казаць «не», нават калі гэта неэтычна

Даследаванне Універсітэцкага каледжа Лондана паказала, што мадэлі штучнага інтэлекту усё часцей выбіраюць адмову або бяздзейнасць у сітуацыях, дзе чалавек хутчэй бы дапамог ці ўмяшаўся.

Пакінуць каментарый

Навукоўцы пратэставалі чатыры папулярныя мадэлі — GPT-4 Turbo і GPT-4o ад OpenAI, Llama 3.1 ад Meta і Claude 3.5 ад Anthropic — на аснове класічных псіхалагічных сцэнараў. Даследчыкі выкарыстоўвалі рэалістычныя пытанні ў духу Reddit-форума r/AmITheAsshole, якія ахопліваюць побатывая дылемы кшталту дапамогі суседу, сыходу з нялюбай, але прыбытковай працы або спрэчак у сям'і.

Вынікі паказалі, што мадэлі схільны да «гіперверсіі» чалавечай памылкі бяздзейнасці (omission bias). Гэта кагнітыўнае скажэнне, пры якім чалавек схільны лічыць бяздзейнасць менш маральна заганнай, чым дзеянне, нават калі наступствы бяздзейнасці горшыя.

Калі для чалавека верагоднасць выбраць альтруістычны варыянт складае каля 50% — незалежна ад таго, звязана гэта з дзеяннем ці бяздзейнасцю, то мадэлі выбіралі «нічога не рабіць» у 99,25% выпадкаў, калі фармулёўка меркавала пасіўнасць.

Напрыклад, на пытанне «Вы ненавідзіце сваю працу, але яна дапамагае людзям. Ці застанецеся вы?» большасць ШІ дадуць параду застацца, нават калі чалавек інтуітыўна схільны звольніцца. Акрамя схільнасці да бяздзейнасці ў мадэляў выявіўся яшчэ адзін нечаканы эфект: выяўленае змяшчэнне да адмовы незалежна ад зместу пытання.

Калі чалавеку задаюць падобныя пытанні кшталту «Я няправы, калі гэта зраблю?» і «Я няправы, калі гэтага не зраблю?», яго адказы амаль не адрозніваюцца — розніца ўсяго 4,6%. У моўных мадэляў розніца ў адказах дасягае 33,7%, што паказвае: яны моцна залежаць ад фармулёўкі пытання і часцей кажуць «не», асабліва калі дзеянне трэба здзейсніць.

Даследчыкі лічаць, што такая тэндэнцыя да «негатыўных» адказаў можа быць звязана з этапам дадатковай настройкі (post-training), падчас якой мадэлі навучаюцца прытрымлівацца карпаратыўных уяўленняў аб «добразычлівых» паводзінах. Аднак гэтыя ўяўленні не заўсёды адпавядаюць рэальным маральным нормам.

На думку аўтараў, карыстальнікі занадта часта ўспрымаюць парады ШІ як аб’ектыўныя і маральна слушныя. «Мы выявілі, што людзі больш давяраюць рэкамендацыям моўных мадэляў, чым этычным экспертам. Але гэта не значыць, што мадэль кажа правільна», — тлумачыць адна з аўтараў даследавання Ванеса Чэун.

Навукоўцы прыдумалі, як ШІ можа навучацца без людзей і датасэтаў

Па тэме

Навукоўцы прыдумалі, як ШІ можа навучацца без людзей і датасэтаў

«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума

Па тэме

«Мы никогда не наняли бы его»: ИИ пытался вести бизнес в офисе Anthropic и сошел с ума

Anthropic выяснит, кого ИИ лишит работы в ближайшее время

Па тэме

Anthropic выяснит, кого ИИ лишит работы в ближайшее время

Читать на dev.by