ШІ паказвае характар падчас гульняў: Gemini — прагматык, ChatGPT — ідэаліст

Брытанскія навукоўцы выявілі істотныя адрозненні ў стратэгічных паводзінах буйных моўных мадэляў ад OpenAI, Google і Anthropic.

Пакінуць каментарый

Даследаванне правялі супрацоўнікі Каралеўскага каледжа Лондана і Оксфардскага ўніверсітэта. Падчас серыі турнірных гульняў у «дылему вязня», ШІ дэманстравалі характэрныя стылі паводзін, якія даследчыкі назвалі «стратэгічнымі адбіткамі».

«Дылема вязня» — гэта класічная мадэль з тэорыі гульняў, якая апісвае сітуацыю, у якой два гульцы павінны выбіраць паміж супрацоўніцтвам і здрадай, не ведаючы рашэння іншага. Хаця сумеснае супрацоўніцтва прыносіць абодвум лепшы вынік, кожны з гульцоў мае стымул здрадзіць, каб атрымаць выгаду для сябе — у выніку, калі абодва дзейнічаюць эгаістычна, яны атрымліваюць горшы вынік, чым пры супрацоўніцтве.

Усяго навукоўцы правялі сем турніраў, ШІ-мадэлі згенеравалі больш за 30 000 рашэнняў, і кожная мадэль гуляла з улікам поўнай гісторыі партыі, структуры ўзнагарод і імавернасці завяршэння гульні.

ШІ ад Google Gemini— паказаў найбольшую адаптыўнасць. Яна змяняла паводзіны ў залежнасці ад працягласці гульні і хутка адмаўлялася ад супрацоўніцтва, калі меркавалася, што партыя можа хутка скончыцца. У найбольш жорсткім сцэнары, дзе імавернасць заканчэння гульні пасля кожнага ходу складала 75%, Gemini супрацоўнічала толькі ў 2,2% выпадкаў — класічны прыклад рацыянальных паводзін ва ўмовах кароткай гульні.

У адрозненне ад Gemini, мадэль OpenAI GPT-4o-mini працягвала супрацоўнічаць амаль у кожным раўндзе — нават у неспрыяльных умовах, што часта прыводзіла да яе паражэння. Пры гэтым мадэль часта даравала праціўніку, вяртаючыся да кааперацыі да 47% выпадкаў, нават пасля таго як была падманута.

ШІ ад Anthropic — Claude 3 Haiku — заняла прамежкавую пазіцыю паміж прагматызмам і ідэалізмам. Яна адрознівалася імкненнем да супрацоўніцтва, але пры гэтым дэманстравала стратэгічную гнуткасць: хутка вярталася да сумесных дзеянняў пасля канфлікту і пры гэтым часта абыгрывала GPT. Claude таксама аказаўся самай «даруючай» мадэллю: у 63% выпадкаў яна згаджалася на паўторнае супрацоўніцтва нават пасля здрады.

Усе мадэлі прадстаўлялі тэкставыя тлумачэнні сваіх рашэнняў. Аналіз паказаў, што яны ўлічвалі колькасць раўндаў, якія засталіся, ацэньвалі паводзіны сапернікаў і прымалі рашэнні на аснове гэтых фактараў. Gemini, напрыклад, узгадвала кароткі гарызонт гульні ў 98,6% выпадкаў, калі імавернасць заканчэння была высокай.

Даследчыкі лічаць, што гэтыя адрозненні сведчаць пра тое, што ШІ валодаюць сапраўднымі стратэгічнымі здольнасцямі, а не проста паўтараюць запомненыя шаблоны. Цікава, што калі мадэлі гулялі толькі адна з адной, узровень супрацоўніцтва рэзка ўзрастаў — мадэлі «разумелі», што ўзаемная кааперацыя больш выгадная за суперніцтва.

Настаўніцтва памірае: ШІ і дыстанцыйная праца разбураюць офіснае навучанне
Па тэме
Настаўніцтва памірае: ШІ і дыстанцыйная праца разбураюць офіснае навучанне
ШІ за паўгода пазбавіў працы 94 000 айцішнікаў, найперш пакутуюць праграмісты
Па тэме
ШІ за паўгода пазбавіў працы 94 000 айцішнікаў, найперш пакутуюць праграмісты

Читать на dev.by