ШІ паказвае характар падчас гульняў: Gemini — прагматык, ChatGPT — ідэаліст
Брытанскія навукоўцы выявілі істотныя адрозненні ў стратэгічных паводзінах буйных моўных мадэляў ад OpenAI, Google і Anthropic.
Брытанскія навукоўцы выявілі істотныя адрозненні ў стратэгічных паводзінах буйных моўных мадэляў ад OpenAI, Google і Anthropic.
Брытанскія навукоўцы выявілі істотныя адрозненні ў стратэгічных паводзінах буйных моўных мадэляў ад OpenAI, Google і Anthropic.
Даследаванне правялі супрацоўнікі Каралеўскага каледжа Лондана і Оксфардскага ўніверсітэта. Падчас серыі турнірных гульняў у «дылему вязня», ШІ дэманстравалі характэрныя стылі паводзін, якія даследчыкі назвалі «стратэгічнымі адбіткамі».
«Дылема вязня» — гэта класічная мадэль з тэорыі гульняў, якая апісвае сітуацыю, у якой два гульцы павінны выбіраць паміж супрацоўніцтвам і здрадай, не ведаючы рашэння іншага. Хаця сумеснае супрацоўніцтва прыносіць абодвум лепшы вынік, кожны з гульцоў мае стымул здрадзіць, каб атрымаць выгаду для сябе — у выніку, калі абодва дзейнічаюць эгаістычна, яны атрымліваюць горшы вынік, чым пры супрацоўніцтве.
Усяго навукоўцы правялі сем турніраў, ШІ-мадэлі згенеравалі больш за 30 000 рашэнняў, і кожная мадэль гуляла з улікам поўнай гісторыі партыі, структуры ўзнагарод і імавернасці завяршэння гульні.
ШІ ад Google Gemini— паказаў найбольшую адаптыўнасць. Яна змяняла паводзіны ў залежнасці ад працягласці гульні і хутка адмаўлялася ад супрацоўніцтва, калі меркавалася, што партыя можа хутка скончыцца. У найбольш жорсткім сцэнары, дзе імавернасць заканчэння гульні пасля кожнага ходу складала 75%, Gemini супрацоўнічала толькі ў 2,2% выпадкаў — класічны прыклад рацыянальных паводзін ва ўмовах кароткай гульні.
У адрозненне ад Gemini, мадэль OpenAI GPT-4o-mini працягвала супрацоўнічаць амаль у кожным раўндзе — нават у неспрыяльных умовах, што часта прыводзіла да яе паражэння. Пры гэтым мадэль часта даравала праціўніку, вяртаючыся да кааперацыі да 47% выпадкаў, нават пасля таго як была падманута.
ШІ ад Anthropic — Claude 3 Haiku — заняла прамежкавую пазіцыю паміж прагматызмам і ідэалізмам. Яна адрознівалася імкненнем да супрацоўніцтва, але пры гэтым дэманстравала стратэгічную гнуткасць: хутка вярталася да сумесных дзеянняў пасля канфлікту і пры гэтым часта абыгрывала GPT. Claude таксама аказаўся самай «даруючай» мадэллю: у 63% выпадкаў яна згаджалася на паўторнае супрацоўніцтва нават пасля здрады.
Усе мадэлі прадстаўлялі тэкставыя тлумачэнні сваіх рашэнняў. Аналіз паказаў, што яны ўлічвалі колькасць раўндаў, якія засталіся, ацэньвалі паводзіны сапернікаў і прымалі рашэнні на аснове гэтых фактараў. Gemini, напрыклад, узгадвала кароткі гарызонт гульні ў 98,6% выпадкаў, калі імавернасць заканчэння была высокай.
Даследчыкі лічаць, што гэтыя адрозненні сведчаць пра тое, што ШІ валодаюць сапраўднымі стратэгічнымі здольнасцямі, а не проста паўтараюць запомненыя шаблоны. Цікава, што калі мадэлі гулялі толькі адна з адной, узровень супрацоўніцтва рэзка ўзрастаў — мадэлі «разумелі», што ўзаемная кааперацыя больш выгадная за суперніцтва.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.