Support us

ИИ-модели не понимают, какие задания сложны для людей

Исследователи из США пришли к выводу, что даже самые продвинутые языковые модели плохо понимают, какие задания действительно сложны для людей.

2 комментария
ИИ-модели не понимают, какие задания сложны для людей

Исследователи из США пришли к выводу, что даже самые продвинутые языковые модели плохо понимают, какие задания действительно сложны для людей.

Новое исследование показывает, что ИИ сталкивается с так называемым «проклятием знания»: модели умеют решать экзаменационные вопросы, но не способны адекватно оценить, где именно у человека возникают трудности.

В рамках исследования ученые протестировали более 20 больших языковых моделей, включая GPT-5, GPT-4o, различные версии Llama и Qwen, а также специализированные reasoning-модели вроде DeepSeek-R1. Моделям предлагалось оценить, насколько сложными экзаменационные вопросы покажутся людям.

Затем эти оценки сравнили с реальными данными — результатами полевых тестов со студентами в четырех областях: медицинский экзамен USMLE, экзамены Cambridge по английскому языку, а также разделы Reading/Writing и Math в SAT. Для сравнения использовалась корреляция Спирмена — статистический показатель, который отражает, насколько схожим образом люди и модели ранжируют вопросы от «легких» к «сложным». Значение 1 означает полное совпадение, 0 — отсутствие связи.

Результаты оказались слабыми. В среднем корреляция у моделей была ниже 0,50, что говорит о плохом совпадении с человеческим восприятием сложности. Более того, рост размеров и эффективности моделей не гарантировал улучшения. Так, GPT-5 показал корреляцию всего 0,34, тогда как более старая версия GPT-4.1 справилась заметно лучше — с результатом 0,44.

Авторы исследования отмечают, что проблема носит фундаментальный характер. Поскольку модели уже «знают ответы», они не сталкиваются с теми когнитивными барьерами, которые испытывают люди при обучении. В итоге ИИ не понимает, какие шаги рассуждения вызывают затруднения у студентов и почему одни задания оказываются сложнее других.

По мнению исследователей, этот разрыв имеет практические последствия. Он ограничивает применение ИИ в образовании — например, при создании учебных материалов, адаптивных тестов и систем персонализированного обучения. Пока языковые модели не научатся лучше понимать человеческое восприятие сложности, их роль в обучении будет оставаться вспомогательной, а не полноценно педагогической.

Бывший главный ИИ-учёный Meta рассказал почему поругался с Цукербергом и ушёл
Бывший главный ИИ-учёный Meta рассказал, почему поругался с Цукербергом и ушёл
По теме
Бывший главный ИИ-учёный Meta рассказал, почему поругался с Цукербергом и ушёл
Почему ИИ думает дольше там где думать почти не нужно — учёные нашли ответ
Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ
По теме
Почему ИИ думает дольше там, где думать почти не нужно — учёные нашли ответ
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
По теме
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
Читайте также
Президент Anthropic говорит, что «общий ИИ» больше не актуален
Президент Anthropic говорит, что «общий ИИ» больше не актуален
Президент Anthropic говорит, что «общий ИИ» больше не актуален
Айтишник сделал Telegram-агента для общения со своей девушкой. Обучал на курсах для пикаперов
Айтишник сделал Telegram-агента для общения со своей девушкой. Обучал на курсах для пикаперов
Айтишник сделал Telegram-агента для общения со своей девушкой. Обучал на курсах для пикаперов
4 комментария
ИИ пытается самосохраняться, и это опасно — «крёстный отец» ИИ
ИИ пытается самосохраняться, и это опасно — «крёстный отец» ИИ
ИИ пытается самосохраняться, и это опасно — «крёстный отец» ИИ
ИИ собрал прототип за час — команде Google потребовался бы год разработки
ИИ собрал прототип за час — команде Google потребовался бы год разработки
ИИ собрал прототип за час — команде Google потребовался бы год разработки
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

0

Сразу после фразы в заголовке статьи "ИИ модели (не) понимают что-то там" становится ясно, что авторы рассуждения ничего не понимают в ИИ.

Ибо у LLM нет понимания хоть какого-то вопроса. Это заложено в архитектуре. Глупо на понимание надеяться и исследовать то чего быть не может.

Корелляция ответов - другая история. Но в случае с LLM это не имеет никакого отношения к пониманию.

Это как исследовать кубик из настолькой игры на понимание им правил игры, которой он управляет по сути. А можно посчитать корелляцию между выпаданием цифры 6 и победой игрока, делающего ход.

Пользователь отредактировал комментарий 6 января 2026, 01:27

0

Слово "понимание" в принципе сложно применить к чему-то не живому. Мы все интуитивно "понимаем", что значит "понимать", но с четким определением, которое не привязано к существам с биологическими мозгами, проблемы. Отсюда любая идея понимающего компьютера кажется по умолчанию спорной.

Если забыть на минуту, как и почему работают эти модели, современный ИИ очень реалистично имитирует человеческое понимание. Очень трудно задать чату ЖПТ такой вопрос, о который он споткнется, потому что "не понял", о чем речь. Ну, и я бы поспорил, что принцип работы ЛЛМ ближе к игральному кубику, чем к настоящему пониманию. Но пока не было никаких аргументов, с которыми можно спорить. Ты обозвал автора и "исследователей из США" дураками, просто потому что. Что именно заложено в архитектуре? Ты прямо настолько хорошо понимаешь архитектуру трансформеров и все, что происходит в их latent space? Откуда уверенность, что можно вести диалог и проходить тест Тьюринга, но при этом не понимать? Это как минимум известный парадокс, над которым можно поломать голову, а не спешить с выводами и оскорблениями.

Пользователь отредактировал комментарий 7 января 2026, 00:30