ИИ-модели не понимают, какие задания сложны для людей
Исследователи из США пришли к выводу, что даже самые продвинутые языковые модели плохо понимают, какие задания действительно сложны для людей.
Исследователи из США пришли к выводу, что даже самые продвинутые языковые модели плохо понимают, какие задания действительно сложны для людей.
Исследователи из США пришли к выводу, что даже самые продвинутые языковые модели плохо понимают, какие задания действительно сложны для людей.
Новое исследование показывает, что ИИ сталкивается с так называемым «проклятием знания»: модели умеют решать экзаменационные вопросы, но не способны адекватно оценить, где именно у человека возникают трудности.
В рамках исследования ученые протестировали более 20 больших языковых моделей, включая GPT-5, GPT-4o, различные версии Llama и Qwen, а также специализированные reasoning-модели вроде DeepSeek-R1. Моделям предлагалось оценить, насколько сложными экзаменационные вопросы покажутся людям.
Затем эти оценки сравнили с реальными данными — результатами полевых тестов со студентами в четырех областях: медицинский экзамен USMLE, экзамены Cambridge по английскому языку, а также разделы Reading/Writing и Math в SAT. Для сравнения использовалась корреляция Спирмена — статистический показатель, который отражает, насколько схожим образом люди и модели ранжируют вопросы от «легких» к «сложным». Значение 1 означает полное совпадение, 0 — отсутствие связи.
Результаты оказались слабыми. В среднем корреляция у моделей была ниже 0,50, что говорит о плохом совпадении с человеческим восприятием сложности. Более того, рост размеров и эффективности моделей не гарантировал улучшения. Так, GPT-5 показал корреляцию всего 0,34, тогда как более старая версия GPT-4.1 справилась заметно лучше — с результатом 0,44.
Авторы исследования отмечают, что проблема носит фундаментальный характер. Поскольку модели уже «знают ответы», они не сталкиваются с теми когнитивными барьерами, которые испытывают люди при обучении. В итоге ИИ не понимает, какие шаги рассуждения вызывают затруднения у студентов и почему одни задания оказываются сложнее других.
По мнению исследователей, этот разрыв имеет практические последствия. Он ограничивает применение ИИ в образовании — например, при создании учебных материалов, адаптивных тестов и систем персонализированного обучения. Пока языковые модели не научатся лучше понимать человеческое восприятие сложности, их роль в обучении будет оставаться вспомогательной, а не полноценно педагогической.



Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Сразу после фразы в заголовке статьи "ИИ модели (не) понимают что-то там" становится ясно, что авторы рассуждения ничего не понимают в ИИ.
Ибо у LLM нет понимания хоть какого-то вопроса. Это заложено в архитектуре. Глупо на понимание надеяться и исследовать то чего быть не может.
Корелляция ответов - другая история. Но в случае с LLM это не имеет никакого отношения к пониманию.
Это как исследовать кубик из настолькой игры на понимание им правил игры, которой он управляет по сути. А можно посчитать корелляцию между выпаданием цифры 6 и победой игрока, делающего ход.
Пользователь отредактировал комментарий 6 января 2026, 01:27
Слово "понимание" в принципе сложно применить к чему-то не живому. Мы все интуитивно "понимаем", что значит "понимать", но с четким определением, которое не привязано к существам с биологическими мозгами, проблемы. Отсюда любая идея понимающего компьютера кажется по умолчанию спорной.
Если забыть на минуту, как и почему работают эти модели, современный ИИ очень реалистично имитирует человеческое понимание. Очень трудно задать чату ЖПТ такой вопрос, о который он споткнется, потому что "не понял", о чем речь. Ну, и я бы поспорил, что принцип работы ЛЛМ ближе к игральному кубику, чем к настоящему пониманию. Но пока не было никаких аргументов, с которыми можно спорить. Ты обозвал автора и "исследователей из США" дураками, просто потому что. Что именно заложено в архитектуре? Ты прямо настолько хорошо понимаешь архитектуру трансформеров и все, что происходит в их latent space? Откуда уверенность, что можно вести диалог и проходить тест Тьюринга, но при этом не понимать? Это как минимум известный парадокс, над которым можно поломать голову, а не спешить с выводами и оскорблениями.
Пользователь отредактировал комментарий 7 января 2026, 00:30