Дапамажыце dev.by 🤍
Падтрымаць

ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей

Даследчыкі з ЗША прыйшлі да высновы, што нават самыя прасунутыя моўныя мадэлі дрэнна разумеюць, якія заданні сапраўды складаныя для людзей.

2 каментарыя
ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей

Даследчыкі з ЗША прыйшлі да высновы, што нават самыя прасунутыя моўныя мадэлі дрэнна разумеюць, якія заданні сапраўды складаныя для людзей.

Новае даследаванне паказвае, што ШІ сутыкаецца з так званым «пракляццем ведаў»: мадэлі ўмеюць вырашаць экзаменацыйныя пытанні, але не здольныя адэкватна ацаніць, дзе менавіта ў чалавека ўзнікаюць цяжкасці.

У рамках даследавання навукоўцы пратэставалі больш за 20 вялікіх моўных мадэляў, уключаючы GPT-5, GPT-4o, розныя версіі Llama і Qwen, а таксама спецыялізаваныя reasoning-мадэлі накшталт DeepSeek-R1. Мадэлям прапаноўвалася ацаніць, наколькі складанымі экзаменацыйныя пытанні падаліся б людзям.

Потым гэтыя ацэнкі параўналі з рэальнымі дадзенымі — вынікамі палявых тэстаў са студэнтамі ў чатырох абласцях: медыцынскі экзамен USMLE, экзамены Cambridge па англійскай мове, а таксама раздзелы Reading/Writing і Math у SAT. Для параўнання выкарыстоўвалася карэляцыя Спірмена — статыстычны паказчык, які адлюстроўвае, наколькі падобным чынам людзі і мадэлі ранжыруюць пытанні ад «лёгкіх» да «складаных». Значэнне 1 азначае поўнае супадзенне, 0 — адсутнасць сувязі.

Вынікі аказаліся слабымі. У сярэднім карэляцыя ў мадэляў была ніжэй за 0,50, што сведчыць пра дрэннае супадзенне з чалавечым успрыманнем складанасці. Больш за тое, рост памераў і эфектыўнасці мадэляў не гарантаваў паляпшэння. Так, GPT-5 паказаў карэляцыю ўсяго 0,34, тады як больш старая версія GPT-4.1 справілася заўважна лепш — з вынікам 0,44.

Аўтары даследавання адзначаюць, што праблема мае фундаментальны характар. Паколькі мадэлі ўжо «ведаюць адказы», яны не сутыкаюцца з тымі кагнітыўнымі бар’ерамі, якія адчуваюць людзі падчас навучання. У выніку ШІ не разумее, якія крокі разважання выклікаюць цяжкасці ў студэнтаў і чаму адны заданні аказваюцца складаней за іншыя.

На думку даследчыкаў, гэты разрыў мае практычныя наступствы. Ён абмяжоўвае прымяненне ШІ ў адукацыі — напрыклад, пры стварэнні вучэбных матэрыялаў, адаптыўных тэстаў і сістэм персаналізаванага навучання. Пакуль моўныя мадэлі не навучацца лепш разумець чалавечае ўспрыманне складанасці, іх роля ў навучанні будзе заставацца дапаможнай, а не паўнавартасна педагагічнай.

Былы галоўны навуковец ШІ Meta расказаў чаму пасварыўся з Цукербергам і сышоў
Былы галоўны навуковец ШІ Meta расказаў, чаму пасварыўся з Цукербергам і сышоў
Па тэме
Былы галоўны навуковец ШІ Meta расказаў, чаму пасварыўся з Цукербергам і сышоў
Чаму ШІ думае даўжэй там дзе думаць амаль не трэба — навукоўцы знайшлі адказ
Чаму ШІ думае даўжэй там, дзе думаць амаль не трэба — навукоўцы знайшлі адказ
Па тэме
Чаму ШІ думае даўжэй там, дзе думаць амаль не трэба — навукоўцы знайшлі адказ
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
Па тэме
«Крёстный отец ИИ» обманывает чат-ботов ради честных ответов
Чытайце таксама
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Боты абагналі людзей: ШІ стаў галоўнай крыніцай трафіку ў інтэрнэце
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Meta кажа, што ЗША патрэбна паўмільёна электрыкаў для патрэб ШІ
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Gemini навучыўся пераносіць дадзеныя з ChatGPT і Claude
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі
Meta прымушае супрацоўнікаў выкарыстоўваць ШІ. Вось якія планкі

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

0

Сразу после фразы в заголовке статьи "ИИ модели (не) понимают что-то там" становится ясно, что авторы рассуждения ничего не понимают в ИИ.

Ибо у LLM нет понимания хоть какого-то вопроса. Это заложено в архитектуре. Глупо на понимание надеяться и исследовать то чего быть не может.

Корелляция ответов - другая история. Но в случае с LLM это не имеет никакого отношения к пониманию.

Это как исследовать кубик из настолькой игры на понимание им правил игры, которой он управляет по сути. А можно посчитать корелляцию между выпаданием цифры 6 и победой игрока, делающего ход.

Карыстальнік адрэдагаваў каментарый 6 студзеня 2026, 01:27

0

Слово "понимание" в принципе сложно применить к чему-то не живому. Мы все интуитивно "понимаем", что значит "понимать", но с четким определением, которое не привязано к существам с биологическими мозгами, проблемы. Отсюда любая идея понимающего компьютера кажется по умолчанию спорной.

Если забыть на минуту, как и почему работают эти модели, современный ИИ очень реалистично имитирует человеческое понимание. Очень трудно задать чату ЖПТ такой вопрос, о который он споткнется, потому что "не понял", о чем речь. Ну, и я бы поспорил, что принцип работы ЛЛМ ближе к игральному кубику, чем к настоящему пониманию. Но пока не было никаких аргументов, с которыми можно спорить. Ты обозвал автора и "исследователей из США" дураками, просто потому что. Что именно заложено в архитектуре? Ты прямо настолько хорошо понимаешь архитектуру трансформеров и все, что происходит в их latent space? Откуда уверенность, что можно вести диалог и проходить тест Тьюринга, но при этом не понимать? Это как минимум известный парадокс, над которым можно поломать голову, а не спешить с выводами и оскорблениями.

Карыстальнік адрэдагаваў каментарый 7 студзеня 2026, 00:30