Новая мадэль OpenAI паспяхова прайшла тэст Цьюрынга: у 73% выпадкаў яе прынялі за чалавека

Новае даследаванне навукоўцаў з Каліфарнійскага ўніверсітэта ў Сан-Дыега паказала, што мадэль GPT-4.5 прайшла класічны тэст Цьюрынга, прадэманстраваўшы здольнасць пераканаўча імітаваць чалавека ў анлайн-размовах.

4 каментарыя

Тэст, прапанаваны брытанскім матэматыкам Аланам Цьюрынгам у 1950 годзе, выкарыстоўваецца для ацэнкі здольнасці машыны дэманстраваць разумныя паводзіны, неадрозныя ад чалавечых. Удзельнікі эксперыменту размаўлялі з суразмоўцамі (адным чалавекам і адным ботам) у тэкставым фармаце на працягу пяці хвілін, пасля чаго ім трэба было вызначыць, хто з іх быў чалавекам. Даследаванне праводзілася сярод дзвюх груп: 126 студэнтаў факультэта псіхалогіі і 158 старэйшых працаўнікоў кампаніі Prolific.

Асаблівасцю эксперыменту стала выкарыстанне двух тыпаў падказак для ШІ-мадэляў: стандартнай просьбы пераканаць суразмоўцу ў сваёй чалавечнасці і персаналізаванай падказкі з зададзенай роляй, напрыклад, «інтраверт, які разбіраецца ў інтэрнэт-культуры». Менавіта ў рэжыме з зададзенай роляй GPT-4.5 паказала найлепшы вынік — 73%. Пры выкарыстанні стандартнай падказкі без персоны гэты паказчык склаў усяго 36%.

Для параўнання, іншая мадэль — LLaMa 3.1–405B — у персаналізаваным рэжыме была прынята за чалавека ў 56% выпадкаў, а без персоны — у 38%. Папярэдняя мадэль OpenAI, GPT-4, у чэрвені 2024 года прайшла аналагічны тэст з вынікам у 54%. Мадэль GPT-4o паказала значна ніжэйшы вынік — усяго 21%.

Галоўны аўтар даследавання, Кэмеран Джонс з Лабараторыі мовы і пазнання Каліфарнійскага ўніверсітэта ў Сан-Дыега, адзначыў, што вынікі паказваюць, што сучасныя вялікія моўныя мадэлі (LLM) могуць замяняць людзей у кароткіх узаемадзеяннях без магчымасці быць распазнанымі. Ён таксама папярэдзіў, што гэта можа прывесці да аўтаматызацыі працоўных месцаў, удасканалення атак сацыяльнай інжынерыі і больш шырокіх сацыяльных узрушэнняў.

Microsoft запусціла ШІ-пашукавік
Па тэме
Microsoft запусціла ШІ-пашукавік
Генератар выяў абрынуў серверы OpenAI і запаволіў выпуск новых функцый
Па тэме
Генератар выяў абрынуў серверы OpenAI і запаволіў выпуск новых функцый
OpenAI правяла найбуйнейшы прыватны інвестраўнд у гісторыі
Па тэме
OpenAI правяла найбуйнейшы прыватны інвестраўнд у гісторыі

Читать на dev.by