Новая мадэль OpenAI паспяхова прайшла тэст Цьюрынга: у 73% выпадкаў яе прынялі за чалавека
Новае даследаванне навукоўцаў з Каліфарнійскага ўніверсітэта ў Сан-Дыега паказала, што мадэль GPT-4.5 прайшла класічны тэст Цьюрынга, прадэманстраваўшы здольнасць пераканаўча імітаваць чалавека ў анлайн-размовах.
Новае даследаванне навукоўцаў з Каліфарнійскага ўніверсітэта ў Сан-Дыега паказала, што мадэль GPT-4.5 прайшла класічны тэст Цьюрынга, прадэманстраваўшы здольнасць пераканаўча імітаваць чалавека ў анлайн-размовах.
Тэст, прапанаваны брытанскім матэматыкам Аланам Цьюрынгам у 1950 годзе, выкарыстоўваецца для ацэнкі здольнасці машыны дэманстраваць разумныя паводзіны, неадрозныя ад чалавечых. Удзельнікі эксперыменту размаўлялі з суразмоўцамі (адным чалавекам і адным ботам) у тэкставым фармаце на працягу пяці хвілін, пасля чаго ім трэба было вызначыць, хто з іх быў чалавекам. Даследаванне праводзілася сярод дзвюх груп: 126 студэнтаў факультэта псіхалогіі і 158 старэйшых працаўнікоў кампаніі Prolific.
New preprint: we evaluated LLMs in a 3-party Turing test (participants speak to a human & AI simultaneously and decide which is which).
GPT-4.5 (when prompted to adopt a humanlike persona) was judged to be the human 73% of the time, suggesting it passes the Turing test (🧵) pic.twitter.com/GBEtoFJHVY
Асаблівасцю эксперыменту стала выкарыстанне двух тыпаў падказак для ШІ-мадэляў: стандартнай просьбы пераканаць суразмоўцу ў сваёй чалавечнасці і персаналізаванай падказкі з зададзенай роляй, напрыклад, «інтраверт, які разбіраецца ў інтэрнэт-культуры». Менавіта ў рэжыме з зададзенай роляй GPT-4.5 паказала найлепшы вынік — 73%. Пры выкарыстанні стандартнай падказкі без персоны гэты паказчык склаў усяго 36%.
Для параўнання, іншая мадэль — LLaMa 3.1–405B — у персаналізаваным рэжыме была прынята за чалавека ў 56% выпадкаў, а без персоны — у 38%. Папярэдняя мадэль OpenAI, GPT-4, у чэрвені 2024 года прайшла аналагічны тэст з вынікам у 54%. Мадэль GPT-4o паказала значна ніжэйшы вынік — усяго 21%.
Галоўны аўтар даследавання, Кэмеран Джонс з Лабараторыі мовы і пазнання Каліфарнійскага ўніверсітэта ў Сан-Дыега, адзначыў, што вынікі паказваюць, што сучасныя вялікія моўныя мадэлі (LLM) могуць замяняць людзей у кароткіх узаемадзеяннях без магчымасці быць распазнанымі. Ён таксама папярэдзіў, што гэта можа прывесці да аўтаматызацыі працоўных месцаў, удасканалення атак сацыяльнай інжынерыі і больш шырокіх сацыяльных узрушэнняў.
Во времена Тьюринга было нормально думать, что если компьютер сможет хорошо разговаривать, то в нем точно будет интеллект. Сейчас все понимают, что это не так. Или не совсем так - даже есть интеллект и есть, то он какой-то другой, трудно сравнимый с человеческим. Тест Тьюринга потерял актуальность. Думаю, он уже давно пройден - все зависит от того, кого посадить тестировать. Специалист по ИИ раскусит любую модель, мою бабушку впечатлит и GPT-2.
На циферблат часов смотрит другая модель, которая не умеет разговаривать. Она выдает массив объектов и координат. К ней вряд ли применимо понятие интеллекта.
Бессмысленно сравнивать нейроны ИИ и живых существ. У них общего только название. Да и то, в литературе обычно вместо "нейронов" используют слово "юнит".
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.
но тесты оно проваливает [Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024]
Во времена Тьюринга было нормально думать, что если компьютер сможет хорошо разговаривать, то в нем точно будет интеллект. Сейчас все понимают, что это не так. Или не совсем так - даже есть интеллект и есть, то он какой-то другой, трудно сравнимый с человеческим. Тест Тьюринга потерял актуальность. Думаю, он уже давно пройден - все зависит от того, кого посадить тестировать. Специалист по ИИ раскусит любую модель, мою бабушку впечатлит и GPT-2.
На циферблат часов смотрит другая модель, которая не умеет разговаривать. Она выдает массив объектов и координат. К ней вряд ли применимо понятие интеллекта.
Бессмысленно сравнивать нейроны ИИ и живых существ. У них общего только название. Да и то, в литературе обычно вместо "нейронов" используют слово "юнит".
"про все понимают" - мягко говоря, преувеличение, о чем в т.ч. свидетельствует данная статья.
Разве? Статья про факт прохождения теста Тьюринга, а не про то, что это означает. Единственный вывод:
Ни слова про интеллект и разумность.