Модель OpenAI почти не отличить от людей: её приняли за живого собеседника в 3/4 случаев
Новое исследование ученых из Калифорнийского университета в Сан-Диего показало, что модель GPT-4.5 прошла классический тест Тьюринга, показав способность убедительно имитировать человека в онлайн-беседах.
Новое исследование ученых из Калифорнийского университета в Сан-Диего показало, что модель GPT-4.5 прошла классический тест Тьюринга, показав способность убедительно имитировать человека в онлайн-беседах.
Тест, предложенный британским математиком Аланом Тьюрингом в 1950 году, служит для оценки способности машины демонстрировать разумное поведение, неотличимое от человеческого. Участники эксперимента общались с собеседниками (одним человеком и одним ботом) в текстовом формате в течение пяти минут, после чего им предлагалось определить, кто из них был человеком. Исследование проводилось среди двух групп: 126 студентов психологического факультета и 158 более взрослых работников компании Prolific.
New preprint: we evaluated LLMs in a 3-party Turing test (participants speak to a human & AI simultaneously and decide which is which).
GPT-4.5 (when prompted to adopt a humanlike persona) was judged to be the human 73% of the time, suggesting it passes the Turing test (🧵) pic.twitter.com/GBEtoFJHVY
Особенностью эксперимента стало использование двух типов подсказок для ИИ-моделей: стандартной просьбы убедить собеседника в своей человечности и персонализированной подсказки с заданной ролью, например, «интроверт, который разбирается в интернет-культуре». Именно в режиме с заданной ролью GPT-4.5 показала наилучший результат — 73%. При использовании стандартной подсказки без персоны этот показатель составил лишь 36%.
Для сравнения, другая модель — LLaMa 3.1–405B — в персонализированном режиме была принята за человека в 56% случаев, а без персоны — в 38%. Предыдущая модель OpenAI, GPT-4, в июне 2024 года прошла аналогичный тест с результатом в 54%. Модель GPT-4o показала значительно более низкий результат — всего 21%.
Ведущий автор исследования Кэмерон Джонс из Лаборатории языка и познания Калифорнийского университета в Сан-Диего, отметил, что результаты показывают, что современные большие языковые модели (LLM) могут заменять людей в коротких взаимодействиях без возможности быть распознанными. Он также предостерег, что это может привести к автоматизации рабочих мест, совершенствованию атак социальной инженерии и более широким социальным потрясениям.
Во времена Тьюринга было нормально думать, что если компьютер сможет хорошо разговаривать, то в нем точно будет интеллект. Сейчас все понимают, что это не так. Или не совсем так - даже есть интеллект и есть, то он какой-то другой, трудно сравнимый с человеческим. Тест Тьюринга потерял актуальность. Думаю, он уже давно пройден - все зависит от того, кого посадить тестировать. Специалист по ИИ раскусит любую модель, мою бабушку впечатлит и GPT-2.
На циферблат часов смотрит другая модель, которая не умеет разговаривать. Она выдает массив объектов и координат. К ней вряд ли применимо понятие интеллекта.
Бессмысленно сравнивать нейроны ИИ и живых существ. У них общего только название. Да и то, в литературе обычно вместо "нейронов" используют слово "юнит".
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
но тесты оно проваливает https://hightech.plus/2025/03/25/vse-modeli-ii-provalili-noveishii-test-na-obshii-intellekt на общий интеллект (лучше не будет при сохранении текущей модели)
https://naked-science.ru/community/1039932 даже распознать циферблат часов может только 1/4
https://t.me/mifofagos/517 "Интеллект пауков на 100К нейронов: AI дрожит от зависти"
Во времена Тьюринга было нормально думать, что если компьютер сможет хорошо разговаривать, то в нем точно будет интеллект. Сейчас все понимают, что это не так. Или не совсем так - даже есть интеллект и есть, то он какой-то другой, трудно сравнимый с человеческим. Тест Тьюринга потерял актуальность. Думаю, он уже давно пройден - все зависит от того, кого посадить тестировать. Специалист по ИИ раскусит любую модель, мою бабушку впечатлит и GPT-2.
На циферблат часов смотрит другая модель, которая не умеет разговаривать. Она выдает массив объектов и координат. К ней вряд ли применимо понятие интеллекта.
Бессмысленно сравнивать нейроны ИИ и живых существ. У них общего только название. Да и то, в литературе обычно вместо "нейронов" используют слово "юнит".