Читатели в 🇵🇱, пожалуйста, поддержите dev.by своими налогами! Это просто и ничего не стоит
Support us

Модель OpenAI почти не отличить от людей: её приняли за живого собеседника в 3/4 случаев

Новое исследование ученых из Калифорнийского университета в Сан-Диего показало, что модель GPT-4.5 прошла классический тест Тьюринга, показав способность убедительно имитировать человека в онлайн-беседах.

2 комментария
Модель OpenAI почти не отличить от людей: её приняли за живого собеседника в 3/4 случаев

Новое исследование ученых из Калифорнийского университета в Сан-Диего показало, что модель GPT-4.5 прошла классический тест Тьюринга, показав способность убедительно имитировать человека в онлайн-беседах.

Тест, предложенный британским математиком Аланом Тьюрингом в 1950 году, служит для оценки способности машины демонстрировать разумное поведение, неотличимое от человеческого. Участники эксперимента общались с собеседниками (одним человеком и одним ботом) в текстовом формате в течение пяти минут, после чего им предлагалось определить, кто из них был человеком. Исследование проводилось среди двух групп: 126 студентов психологического факультета и 158 более взрослых работников компании Prolific.

Особенностью эксперимента стало использование двух типов подсказок для ИИ-моделей: стандартной просьбы убедить собеседника в своей человечности и персонализированной подсказки с заданной ролью, например, «интроверт, который разбирается в интернет-культуре». Именно в режиме с заданной ролью GPT-4.5 показала наилучший результат — 73%. При использовании стандартной подсказки без персоны этот показатель составил лишь 36%.

Для сравнения, другая модель — LLaMa 3.1–405B — в персонализированном режиме была принята за человека в 56% случаев, а без персоны — в 38%. Предыдущая модель OpenAI, GPT-4, в июне 2024 года прошла аналогичный тест с результатом в 54%. Модель GPT-4o показала значительно более низкий результат — всего 21%.

Ведущий автор исследования Кэмерон Джонс из Лаборатории языка и познания Калифорнийского университета в Сан-Диего, отметил, что результаты показывают, что современные большие языковые модели (LLM) могут заменять людей в коротких взаимодействиях без возможности быть распознанными. Он также предостерег, что это может привести к автоматизации рабочих мест, совершенствованию атак социальной инженерии и более широким социальным потрясениям.

Microsoft запустила ИИ-поисковик
Microsoft запустила ИИ-поисковик
По теме
Microsoft запустила ИИ-поисковик
Генератор изображений обрушил серверы OpenAI и замедлил выпуск новых функций
Генератор изображений обрушил серверы OpenAI и замедлил выпуск новых функций
По теме
Генератор изображений обрушил серверы OpenAI и замедлил выпуск новых функций
OpenAI подняла крупнейший частный инвестраунд в мире
OpenAI подняла крупнейший частный инвестраунд в мире
По теме
OpenAI подняла крупнейший частный инвестраунд в мире
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
4 комментария
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

1

но тесты оно проваливает https://hightech.plus/2025/03/25/vse-modeli-ii-provalili-noveishii-test-na-obshii-intellekt на общий интеллект (лучше не будет при сохранении текущей модели)
https://naked-science.ru/community/1039932 даже распознать циферблат часов может только 1/4

https://t.me/mifofagos/517 "Интеллект пауков на 100К нейронов: AI дрожит от зависти"

0

Во времена Тьюринга было нормально думать, что если компьютер сможет хорошо разговаривать, то в нем точно будет интеллект. Сейчас все понимают, что это не так. Или не совсем так - даже есть интеллект и есть, то он какой-то другой, трудно сравнимый с человеческим. Тест Тьюринга потерял актуальность. Думаю, он уже давно пройден - все зависит от того, кого посадить тестировать. Специалист по ИИ раскусит любую модель, мою бабушку впечатлит и GPT-2.

На циферблат часов смотрит другая модель, которая не умеет разговаривать. Она выдает массив объектов и координат. К ней вряд ли применимо понятие интеллекта.

Бессмысленно сравнивать нейроны ИИ и живых существ. У них общего только название. Да и то, в литературе обычно вместо "нейронов" используют слово "юнит".