Николай Чикишев world 5 студзеня 2026, 16:09

ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей

Даследчыкі з ЗША прыйшлі да высновы, што нават самыя прасунутыя моўныя мадэлі дрэнна разумеюць, якія заданні сапраўды складаныя для людзей.

2 каментарыя

ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей

Даследчыкі з ЗША прыйшлі да высновы, што нават самыя прасунутыя моўныя мадэлі дрэнна разумеюць, якія заданні сапраўды складаныя для людзей.

Новае даследаванне паказвае, што ШІ сутыкаецца з так званым «пракляццем ведаў»: мадэлі ўмеюць вырашаць экзаменацыйныя пытанні, але не здольныя адэкватна ацаніць, дзе менавіта ў чалавека ўзнікаюць цяжкасці.

У рамках даследавання навукоўцы пратэставалі больш за 20 вялікіх моўных мадэляў, уключаючы GPT-5, GPT-4o, розныя версіі Llama і Qwen, а таксама спецыялізаваныя reasoning-мадэлі накшталт DeepSeek-R1. Мадэлям прапаноўвалася ацаніць, наколькі складанымі экзаменацыйныя пытанні падаліся б людзям.

Потым гэтыя ацэнкі параўналі з рэальнымі дадзенымі — вынікамі палявых тэстаў са студэнтамі ў чатырох абласцях: медыцынскі экзамен USMLE, экзамены Cambridge па англійскай мове, а таксама раздзелы Reading/Writing і Math у SAT. Для параўнання выкарыстоўвалася карэляцыя Спірмена — статыстычны паказчык, які адлюстроўвае, наколькі падобным чынам людзі і мадэлі ранжыруюць пытанні ад «лёгкіх» да «складаных». Значэнне 1 азначае поўнае супадзенне, 0 — адсутнасць сувязі.

Вынікі аказаліся слабымі. У сярэднім карэляцыя ў мадэляў была ніжэй за 0,50, што сведчыць пра дрэннае супадзенне з чалавечым успрыманнем складанасці. Больш за тое, рост памераў і эфектыўнасці мадэляў не гарантаваў паляпшэння. Так, GPT-5 паказаў карэляцыю ўсяго 0,34, тады як больш старая версія GPT-4.1 справілася заўважна лепш — з вынікам 0,44.

Аўтары даследавання адзначаюць, што праблема мае фундаментальны характар. Паколькі мадэлі ўжо «ведаюць адказы», яны не сутыкаюцца з тымі кагнітыўнымі бар’ерамі, якія адчуваюць людзі падчас навучання. У выніку ШІ не разумее, якія крокі разважання выклікаюць цяжкасці ў студэнтаў і чаму адны заданні аказваюцца складаней за іншыя.

На думку даследчыкаў, гэты разрыў мае практычныя наступствы. Ён абмяжоўвае прымяненне ШІ ў адукацыі — напрыклад, пры стварэнні вучэбных матэрыялаў, адаптыўных тэстаў і сістэм персаналізаванага навучання. Пакуль моўныя мадэлі не навучацца лепш разумець чалавечае ўспрыманне складанасці, іх роля ў навучанні будзе заставацца дапаможнай, а не паўнавартасна педагагічнай.

Былы галоўны навуковец ШІ Meta расказаў чаму пасварыўся з Цукербергам і сышоў

Чаму ШІ думае даўжэй там дзе думаць амаль не трэба — навукоўцы знайшлі адказ

«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов

2 каментарыя

Тэкст: Николай Чикишев Крыніца: The Decoder Тэгі: искусственный интеллект, исследование, образование, чат-боты

Знайшлі памылку ў тэксце-вылучыце яе і націсніце Ctrl+Enter. Знайшлі памылку ў тэксце-вылучыце яе і націсніце кнопку «Паведаміць пра памылку».

Сайт компании Вакансии

Размяшчэнне рэкламы

ChatGPT не вінаваты: спад у прафесіях, уразлівых для штучнага інтэлекту, пачаўся раней

ШІ не любіць лянівых: рынак софту штарміць з-за асцярог інвестараў

Распрацоўшчык стварыў мову праграмавання з дапамогай Claude Code

1 каментарый

Распрацоўшчык з Google стварыў інтэрактыўную карту Нью-Ёрка ў стылі SimCity

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

sergey-dev

0

Сразу после фразы в заголовке статьи "ИИ модели (не) понимают что-то там" становится ясно, что авторы рассуждения ничего не понимают в ИИ.

Ибо у LLM нет понимания хоть какого-то вопроса. Это заложено в архитектуре. Глупо на понимание надеяться и исследовать то чего быть не может.

Корелляция ответов - другая история. Но в случае с LLM это не имеет никакого отношения к пониманию.

Это как исследовать кубик из настолькой игры на понимание им правил игры, которой он управляет по сути. А можно посчитать корелляцию между выпаданием цифры 6 и победой игрока, делающего ход.

Карыстальнік адрэдагаваў каментарый 6 студзеня 2026, 01:27

Alex V

0

Слово "понимание" в принципе сложно применить к чему-то не живому. Мы все интуитивно "понимаем", что значит "понимать", но с четким определением, которое не привязано к существам с биологическими мозгами, проблемы. Отсюда любая идея понимающего компьютера кажется по умолчанию спорной.

Если забыть на минуту, как и почему работают эти модели, современный ИИ очень реалистично имитирует человеческое понимание. Очень трудно задать чату ЖПТ такой вопрос, о который он споткнется, потому что "не понял", о чем речь. Ну, и я бы поспорил, что принцип работы ЛЛМ ближе к игральному кубику, чем к настоящему пониманию. Но пока не было никаких аргументов, с которыми можно спорить. Ты обозвал автора и "исследователей из США" дураками, просто потому что. Что именно заложено в архитектуре? Ты прямо настолько хорошо понимаешь архитектуру трансформеров и все, что происходит в их latent space? Откуда уверенность, что можно вести диалог и проходить тест Тьюринга, но при этом не понимать? Это как минимум известный парадокс, над которым можно поломать голову, а не спешить с выводами и оскорблениями.

Карыстальнік адрэдагаваў каментарый 7 студзеня 2026, 00:30

Увайдзіце, каб пакінуць каментарый