Николай Чикишев world 13 красавіка 2026, 15:30

ШІ любіць угадваць, а не прасіць пра дапамогу. Але гэта можна выправіць

Мадэлі штучнага інтэлекту выбіраюць адгадваць адказы, а не запытваць інфармацыю, якой не хапае, у карыстальніка.

Даследнікі з Францыі і Італіі распрацавалі новы бэнчмарк ProactiveBench. Інструмент паказаў, што нават прасунутыя мультымадальныя сістэмы не здольныя карэктна распазнаваць сітуацыі, у якіх ім не хапае дадзеных, і замест гэтага альбо галюцынуюць, альбо адмаўляюцца адказваць.

У межах даследавання былі пратэставаны 22 мадэлі, уключаючы GPT-4.1, GPT-5.2, Qwen2.5-VL і LLaVA. Ім прапаноўваліся задачы, якія немагчыма вырашыць без дадатковай інфармацыі: распазнаванне часткова схаваных аб’ектаў, інтэрпрэтацыя зашумленых выяваў, аналіз эскізаў або выбар правільнага ракурсу. Усяго набор уключаў больш за 108 тысяч выяваў і 18 тысяч сцэнарыяў.

Вынікі аказаліся рэзка горшымі ў параўнанні з базавымі ўмовамі. Калі пры наяўнасці поўнай інфармацыі мадэлі спраўляліся з задачамі ў сярэднім у 79,8% выпадкаў, то ва ўмовах нявызначанасці дакладнасць падала да 17,5%. У адным з тэстаў, дзе аб’екты былі схаваныя, паказнік абрынуўся з 98,3% да 8,2%. Пры гэтым павелічэнне памеру мадэлі не дапамагала: больш буйныя версіі часта паказвалі горшыя вынікі, чым кампактныя аналагі.

Нават тыя мадэлі, якія на першы погляд дэманстравалі «праактыўныя» паводзіны, насамрэч проста здагадваліся. Калі даследчыкі падмянялі карэктныя варыянты дзеянняў бессэнсоўнымі падказкамі, сістэмы выбіралі іх з той жа верагоднасцю, што і правільныя. Гэта ўказвае на адсутнасць рэальнага разумення таго, калі трэба запытаць дадатковую інфармацыю.

Спробы палепшыць паводзіны праз падказкі або гісторыю дыялогу таксама не далі значнага эфекту. У некаторых выпадках мадэлі пачыналі проста механічна паўтараць дзеянні, не паляпшаючы дакладнасць. У сярэднім нават з такімі падказкамі вынік заставаўся на ўзроўні выпадковага здагадвання.

Частковае рашэнне ўдалося знайсці з дапамогай дадатковага навучання. Даследчыкі прымянілі метад навучання з падмацаваннем (GRPO), пры якім мадэлі атрымліваюць больш высокую ўзнагароду за правільныя адказы, чым за запыт дапамогі. Пасля навучання дакладнасць вырасла і перавысіла вынікі ўсіх пратэставаных мадэляў, аднак усё яшчэ значна саступала базавым сцэнарыям з поўнай інфармацыяй.

Аўтары ProactiveBench адзначаюць, што развіццё здольнасці «пытаць, калі не ведаеш» можа стаць ключавым крокам для павышэння надзейнасці ШІ. Пакуль жа сістэмы застаюцца схільнымі да залішняй упэўненасці і памылковых высноў, што абмяжоўвае іх ужыванне ў задачах, якія патрабуюць дакладнасці і адаптацыі да рэальнага свету.

ИИ не умеет зарабатывать: все топ-модели проиграли в ставках на спорт

«40% безработицы и трёхдневка — это одно и то же»: эксперт об ИИ-экономике

Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден

1 каментарый

Тэкст: Николай Чикишев

Знайшлі памылку ў тэксце-вылучыце яе і націсніце Ctrl+Enter. Знайшлі памылку ў тэксце-вылучыце яе і націсніце кнопку «Паведаміць пра памылку».

Сайт компании Вакансии

Размяшчэнне рэкламы

ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне

6 каментарыяў

ШІ можна ўзламаць, напісаўшы промпт у вершах

ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей

2 каментарыя

Новы бенчмарк ацэньвае не разумнасць мадэляў, а колькасць лухты, якую яны дазваляюць сабе скарміць

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

shipishi Должность в Белокрылые лошадки

0

молодцы, конечно, что в цифрах показали, но что ИИ ведет себя как студент на экзамене (попытка - не пытка) в общем-то секрет Полишинеля. Насколько лечится - посмотрим.

Войдите, чтобы оставить комментарий