Николай Чикишев world 4 красавіка 2025, 13:53

Новая мадэль OpenAI паспяхова прайшла тэст Цьюрынга: у 73% выпадкаў яе прынялі за чалавека

Новае даследаванне навукоўцаў з Каліфарнійскага ўніверсітэта ў Сан-Дыега паказала, што мадэль GPT-4.5 прайшла класічны тэст Цьюрынга, прадэманстраваўшы здольнасць пераканаўча імітаваць чалавека ў анлайн-размовах.

4 каментарыя

Новая мадэль OpenAI паспяхова прайшла тэст Цьюрынга: у 73% выпадкаў яе прынялі за чалавека

Новае даследаванне навукоўцаў з Каліфарнійскага ўніверсітэта ў Сан-Дыега паказала, што мадэль GPT-4.5 прайшла класічны тэст Цьюрынга, прадэманстраваўшы здольнасць пераканаўча імітаваць чалавека ў анлайн-размовах.

Тэст, прапанаваны брытанскім матэматыкам Аланам Цьюрынгам у 1950 годзе, выкарыстоўваецца для ацэнкі здольнасці машыны дэманстраваць разумныя паводзіны, неадрозныя ад чалавечых. Удзельнікі эксперыменту размаўлялі з суразмоўцамі (адным чалавекам і адным ботам) у тэкставым фармаце на працягу пяці хвілін, пасля чаго ім трэба было вызначыць, хто з іх быў чалавекам. Даследаванне праводзілася сярод дзвюх груп: 126 студэнтаў факультэта псіхалогіі і 158 старэйшых працаўнікоў кампаніі Prolific.

New preprint: we evaluated LLMs in a 3-party Turing test (participants speak to a human & AI simultaneously and decide which is which).

GPT-4.5 (when prompted to adopt a humanlike persona) was judged to be the human 73% of the time, suggesting it passes the Turing test (🧵) pic.twitter.com/GBEtoFJHVY
— Cameron Jones (@camrobjones) April 1, 2025

Асаблівасцю эксперыменту стала выкарыстанне двух тыпаў падказак для ШІ-мадэляў: стандартнай просьбы пераканаць суразмоўцу ў сваёй чалавечнасці і персаналізаванай падказкі з зададзенай роляй, напрыклад, «інтраверт, які разбіраецца ў інтэрнэт-культуры». Менавіта ў рэжыме з зададзенай роляй GPT-4.5 паказала найлепшы вынік — 73%. Пры выкарыстанні стандартнай падказкі без персоны гэты паказчык склаў усяго 36%.

Для параўнання, іншая мадэль — LLaMa 3.1–405B — у персаналізаваным рэжыме была прынята за чалавека ў 56% выпадкаў, а без персоны — у 38%. Папярэдняя мадэль OpenAI, GPT-4, у чэрвені 2024 года прайшла аналагічны тэст з вынікам у 54%. Мадэль GPT-4o паказала значна ніжэйшы вынік — усяго 21%.

Галоўны аўтар даследавання, Кэмеран Джонс з Лабараторыі мовы і пазнання Каліфарнійскага ўніверсітэта ў Сан-Дыега, адзначыў, што вынікі паказваюць, што сучасныя вялікія моўныя мадэлі (LLM) могуць замяняць людзей у кароткіх узаемадзеяннях без магчымасці быць распазнанымі. Ён таксама папярэдзіў, што гэта можа прывесці да аўтаматызацыі працоўных месцаў, удасканалення атак сацыяльнай інжынерыі і больш шырокіх сацыяльных узрушэнняў.

Генератар выяў абрынуў серверы OpenAI і запаволіў выпуск новых функцый

OpenAI правяла найбуйнейшы прыватны інвестраўнд у гісторыі

4 каментарыя

Тэкст: Николай Чикишев Крыніца: NDTV Тэгі: openai, искусственный интеллект, тест тьюринга

Знайшлі памылку ў тэксце-вылучыце яе і націсніце Ctrl+Enter. Знайшлі памылку ў тэксце-вылучыце яе і націсніце кнопку «Паведаміць пра памылку».

Сайт компании Вакансии

Размяшчэнне рэкламы

Google ўрэзала доступ да Pro-версій Gemini 3 і Nano Banana, Alibaba дзеліць кліентаў па прыярытэту — кампаніі пакутуюць на папулярнасць

ШІ ужо зараз можа замяніць 12% амерыканскіх работнікаў

2 каментарыя

Сузаснавальнік OpenAI: галоўная стратэгія развіцця ШІ вычарпала сябе — трэба вяртацца да навуковых вытокаў

Nvidia: Google добрая, але мы на пакаленне наперадзе

3 каментарыя

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Anonymous

1

но тесты оно проваливает [Часть комментария скрыта за нарушение правил общения. Вот они, их всего пять: https://devby.io/news/comments-2024]

Alex V

0

Во времена Тьюринга было нормально думать, что если компьютер сможет хорошо разговаривать, то в нем точно будет интеллект. Сейчас все понимают, что это не так. Или не совсем так - даже есть интеллект и есть, то он какой-то другой, трудно сравнимый с человеческим. Тест Тьюринга потерял актуальность. Думаю, он уже давно пройден - все зависит от того, кого посадить тестировать. Специалист по ИИ раскусит любую модель, мою бабушку впечатлит и GPT-2.

На циферблат часов смотрит другая модель, которая не умеет разговаривать. Она выдает массив объектов и координат. К ней вряд ли применимо понятие интеллекта.

Бессмысленно сравнивать нейроны ИИ и живых существ. У них общего только название. Да и то, в литературе обычно вместо "нейронов" используют слово "юнит".

shipishi Должность в Белокрылые лошадки

0

"про все понимают" - мягко говоря, преувеличение, о чем в т.ч. свидетельствует данная статья.

Alex V

0

Разве? Статья про факт прохождения теста Тьюринга, а не про то, что это означает. Единственный вывод:

современные большие языковые модели (LLM) могут заменять людей в коротких взаимодействиях без возможности быть распознанными

Ни слова про интеллект и разумность.

Увайдзіце, каб пакінуць каментарый