Дапамажыце dev.by 🤍
Падтрымаць

ШІ любіць угадваць, а не прасіць пра дапамогу. Але гэта можна выправіць

Мадэлі штучнага інтэлекту выбіраюць адгадваць адказы, а не запытваць інфармацыю, якой не хапае, у карыстальніка.

Пакінуць каментарый
ШІ любіць угадваць, а не прасіць пра дапамогу. Але гэта можна выправіць

Мадэлі штучнага інтэлекту выбіраюць адгадваць адказы, а не запытваць інфармацыю, якой не хапае, у карыстальніка.

Даследнікі з Францыі і Італіі распрацавалі новы бэнчмарк ProactiveBench. Інструмент паказаў, што нават прасунутыя мультымадальныя сістэмы не здольныя карэктна распазнаваць сітуацыі, у якіх ім не хапае дадзеных, і замест гэтага альбо галюцынуюць, альбо адмаўляюцца адказваць.

У межах даследавання былі пратэставаны 22 мадэлі, уключаючы GPT-4.1, GPT-5.2, Qwen2.5-VL і LLaVA. Ім прапаноўваліся задачы, якія немагчыма вырашыць без дадатковай інфармацыі: распазнаванне часткова схаваных аб’ектаў, інтэрпрэтацыя зашумленых выяваў, аналіз эскізаў або выбар правільнага ракурсу. Усяго набор уключаў больш за 108 тысяч выяваў і 18 тысяч сцэнарыяў.

Вынікі аказаліся рэзка горшымі ў параўнанні з базавымі ўмовамі. Калі пры наяўнасці поўнай інфармацыі мадэлі спраўляліся з задачамі ў сярэднім у 79,8% выпадкаў, то ва ўмовах нявызначанасці дакладнасць падала да 17,5%. У адным з тэстаў, дзе аб’екты былі схаваныя, паказнік абрынуўся з 98,3% да 8,2%. Пры гэтым павелічэнне памеру мадэлі не дапамагала: больш буйныя версіі часта паказвалі горшыя вынікі, чым кампактныя аналагі.

Нават тыя мадэлі, якія на першы погляд дэманстравалі «праактыўныя» паводзіны, насамрэч проста здагадваліся. Калі даследчыкі падмянялі карэктныя варыянты дзеянняў бессэнсоўнымі падказкамі, сістэмы выбіралі іх з той жа верагоднасцю, што і правільныя. Гэта ўказвае на адсутнасць рэальнага разумення таго, калі трэба запытаць дадатковую інфармацыю.

Спробы палепшыць паводзіны праз падказкі або гісторыю дыялогу таксама не далі значнага эфекту. У некаторых выпадках мадэлі пачыналі проста механічна паўтараць дзеянні, не паляпшаючы дакладнасць. У сярэднім нават з такімі падказкамі вынік заставаўся на ўзроўні выпадковага здагадвання.

Частковае рашэнне ўдалося знайсці з дапамогай дадатковага навучання. Даследчыкі прымянілі метад навучання з падмацаваннем (GRPO), пры якім мадэлі атрымліваюць больш высокую ўзнагароду за правільныя адказы, чым за запыт дапамогі. Пасля навучання дакладнасць вырасла і перавысіла вынікі ўсіх пратэставаных мадэляў, аднак усё яшчэ значна саступала базавым сцэнарыям з поўнай інфармацыяй.

Аўтары ProactiveBench адзначаюць, што развіццё здольнасці «пытаць, калі не ведаеш» можа стаць ключавым крокам для павышэння надзейнасці ШІ. Пакуль жа сістэмы застаюцца схільнымі да залішняй упэўненасці і памылковых высноў, што абмяжоўвае іх ужыванне ў задачах, якія патрабуюць дакладнасці і адаптацыі да рэальнага свету.

ИИ не умеет зарабатывать: все топ-модели проиграли в ставках на спорт
ШІ не ўмее зарабляць: усе топ-мадэлі прайгралі ў стаўках на спорт
Па тэме
ШІ не ўмее зарабляць: усе топ-мадэлі прайгралі ў стаўках на спорт
«40% безработицы и трёхдневка — это одно и то же»: эксперт об ИИ-экономике
«40% беспрацоўя і трохдзёнка — гэта адно і тое ж»: эксперт аб ШІ-эканоміцы
Па тэме
«40% беспрацоўя і трохдзёнка — гэта адно і тое ж»: эксперт аб ШІ-эканоміцы
Что эффективнее: один ИИ-агент или несколько? Ответ не так очевиден
Што эфектыўней: адзін ШІ-агент ці некалькі? Адказ не так відавочны
Па тэме
Што эфектыўней: адзін ШІ-агент ці некалькі? Адказ не так відавочны
Чытайце таксама
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне
ШІ спрабуе пазбегнуць адключэння любым коштам — даследаванне
6 каментарыяў
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ можна ўзламаць, напісаўшы промпт у вершах
ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей
ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей
ШІ-мадэлі не разумеюць, якія заданні складаныя для людзей
2 каментарыя
Новы бенчмарк ацэньвае не разумнасць мадэляў, а колькасць лухты, якую яны дазваляюць сабе скарміць
Новы бенчмарк ацэньвае не разумнасць мадэляў, а колькасць лухты, якую яны дазваляюць сабе скарміць
Новы бенчмарк ацэньвае не разумнасць мадэляў, а колькасць лухты, якую яны дазваляюць сабе скарміць

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.