Дапамажыце dev.by 🤍
Падтрымаць

Новая мадэль OpenAI паспяхова прайшла тэст Цьюрынга: у 73% выпадкаў яе прынялі за чалавека

Новае даследаванне навукоўцаў з Каліфарнійскага ўніверсітэта ў Сан-Дыега паказала, што мадэль GPT-4.5 прайшла класічны тэст Цьюрынга, прадэманстраваўшы здольнасць пераканаўча імітаваць чалавека ў анлайн-размовах.

4 каментарыя
Новая мадэль OpenAI паспяхова прайшла тэст Цьюрынга: у 73% выпадкаў яе прынялі за чалавека

Новае даследаванне навукоўцаў з Каліфарнійскага ўніверсітэта ў Сан-Дыега паказала, што мадэль GPT-4.5 прайшла класічны тэст Цьюрынга, прадэманстраваўшы здольнасць пераканаўча імітаваць чалавека ў анлайн-размовах.

Тэст, прапанаваны брытанскім матэматыкам Аланам Цьюрынгам у 1950 годзе, выкарыстоўваецца для ацэнкі здольнасці машыны дэманстраваць разумныя паводзіны, неадрозныя ад чалавечых. Удзельнікі эксперыменту размаўлялі з суразмоўцамі (адным чалавекам і адным ботам) у тэкставым фармаце на працягу пяці хвілін, пасля чаго ім трэба было вызначыць, хто з іх быў чалавекам. Даследаванне праводзілася сярод дзвюх груп: 126 студэнтаў факультэта псіхалогіі і 158 старэйшых працаўнікоў кампаніі Prolific.

Асаблівасцю эксперыменту стала выкарыстанне двух тыпаў падказак для ШІ-мадэляў: стандартнай просьбы пераканаць суразмоўцу ў сваёй чалавечнасці і персаналізаванай падказкі з зададзенай роляй, напрыклад, «інтраверт, які разбіраецца ў інтэрнэт-культуры». Менавіта ў рэжыме з зададзенай роляй GPT-4.5 паказала найлепшы вынік — 73%. Пры выкарыстанні стандартнай падказкі без персоны гэты паказчык склаў усяго 36%.

Для параўнання, іншая мадэль — LLaMa 3.1–405B — у персаналізаваным рэжыме была прынята за чалавека ў 56% выпадкаў, а без персоны — у 38%. Папярэдняя мадэль OpenAI, GPT-4, у чэрвені 2024 года прайшла аналагічны тэст з вынікам у 54%. Мадэль GPT-4o паказала значна ніжэйшы вынік — усяго 21%.

Галоўны аўтар даследавання, Кэмеран Джонс з Лабараторыі мовы і пазнання Каліфарнійскага ўніверсітэта ў Сан-Дыега, адзначыў, што вынікі паказваюць, што сучасныя вялікія моўныя мадэлі (LLM) могуць замяняць людзей у кароткіх узаемадзеяннях без магчымасці быць распазнанымі. Ён таксама папярэдзіў, што гэта можа прывесці да аўтаматызацыі працоўных месцаў, удасканалення атак сацыяльнай інжынерыі і больш шырокіх сацыяльных узрушэнняў.

Microsoft запусціла ШІ-пашукавік
Microsoft запусціла ШІ-пашукавік
Па тэме
Microsoft запусціла ШІ-пашукавік
Генератар выяў абрынуў серверы OpenAI і запаволіў выпуск новых функцый
Генератар выяў абрынуў серверы OpenAI і запаволіў выпуск новых функцый
Па тэме
Генератар выяў абрынуў серверы OpenAI і запаволіў выпуск новых функцый
OpenAI правяла найбуйнейшы прыватны інвестраўнд у гісторыі
OpenAI правяла найбуйнейшы прыватны інвестраўнд у гісторыі
Па тэме
OpenAI правяла найбуйнейшы прыватны інвестраўнд у гісторыі
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
7 каментарыяў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Anonymous
Anonymous
1

но тесты оно проваливает [Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024]

0

Во времена Тьюринга было нормально думать, что если компьютер сможет хорошо разговаривать, то в нем точно будет интеллект. Сейчас все понимают, что это не так. Или не совсем так - даже есть интеллект и есть, то он какой-то другой, трудно сравнимый с человеческим. Тест Тьюринга потерял актуальность. Думаю, он уже давно пройден - все зависит от того, кого посадить тестировать. Специалист по ИИ раскусит любую модель, мою бабушку впечатлит и GPT-2.

На циферблат часов смотрит другая модель, которая не умеет разговаривать. Она выдает массив объектов и координат. К ней вряд ли применимо понятие интеллекта.

Бессмысленно сравнивать нейроны ИИ и живых существ. У них общего только название. Да и то, в литературе обычно вместо "нейронов" используют слово "юнит".

shipishi
shipishi Должность в Белокрылые лошадки
0

"про все понимают" - мягко говоря, преувеличение, о чем в т.ч. свидетельствует данная статья.

0

Разве? Статья про факт прохождения теста Тьюринга, а не про то, что это означает. Единственный вывод:

современные большие языковые модели (LLM) могут заменять людей в коротких взаимодействиях без возможности быть распознанными

Ни слова про интеллект и разумность.