Дапамажыце dev.by 🤍
Падтрымаць

ШІ не разумее fail-відэа — і правальвае тэст, які праходзяць дзеці

Даследаванне міжнароднай групы навукоўцаў выявіла сур’ёзны недахоп сучасных ШІ-мадэляў: яны дрэнна спраўляюцца з нечаканасцямі і рэдка пераглядаюць свае першапачатковыя высновы — нават пасля таго, як становяцца відавочнымі памылкі.

Пакінуць каментарый
ШІ не разумее fail-відэа — і правальвае тэст, які праходзяць дзеці

Даследаванне міжнароднай групы навукоўцаў выявіла сур’ёзны недахоп сучасных ШІ-мадэляў: яны дрэнна спраўляюцца з нечаканасцямі і рэдка пераглядаюць свае першапачатковыя высновы — нават пасля таго, як становяцца відавочнымі памылкі.

Навукоўцы з Універсітэта Брытанскай Калумбіі і Тэхналагічнага ўніверсітэта Наньянга пратэставалі вядучыя ШІ-сістэмы на 1 600 папулярных fail-відэа з ютуб-датасета Oops! Вынікі леглі ў аснову новага бенчмарка BlackSwanSuite, створанага для ацэнкі здольнасці ШІ разумець і адаптавацца да нечаканых падзей.

Прыклад: мужчына размахвае падушкай ля елкі. Мадэль GPT-4o «вырашае», што ён збіраецца ўдарыць кагосьці. На самай справе падушка збівае ўпрыгожанні, якія падаюць на жанчыну. Аднак нават пасля прагляду поўнай сцэны ШІ застаецца пры сваім першым (няправільным) меркаванні. Гэта тыпова: ШІ не схільныя мяняць меркаванне, у адрозненне ад чалавека, які здольны хутка перагледзець высновы пры з’яўленні новай інфармацыі.

Даследчыкі падзялілі кожны ролік на тры часткі — уступ, нечаканы момант і наступствы. Затым яны сфармавалі тры тыпы заданняў: Forecaster, калі ШІ бачыць толькі пачатак відэа і павінен прадказаць, што адбудзецца; Detective, калі паказваюцца пачатак і канец, мадэль тлумачыць, што здарылася паміж імі; Reporter, калі мадэль бачыць усё відэа і павінна абнавіць свае меркаванні.

Усяго было сфармавана 15 469 пытанняў для розных мадэляў, уключаючы GPT-4o, Gemini 1.5 Pro, а таксама адкрытыя сістэмы кшталту LLaVA-Video і VideoLLaMA 2. На заданні «рэпарцёра», дзе трэба перагледзець свае высновы пасля прагляду ўсёй сцэны, GPT-4o даў правільныя адказы толькі ў 60% выпадкаў, тады як людзі — у 92%. Нават адкрытыя мадэлі паказалі падобную няўстойлівасць да нечаканасцяў.

Калі мадэлі замянілі відэа на падрабязныя чалавечыя апісанні, дакладнасць LLaVA-Video вырасла на 10%. Гэта паказвае, што ШІ усё яшчэ залежыць ад успрымання чалавека, а не здольны да самастойнага «разумення» таго, што адбываецца.

Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
Па тэме
Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
Па тэме
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Па тэме
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Чытайце таксама
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды, дзе толькі магчыма»
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды, дзе толькі магчыма»
Генеральны дырэктар Nvidia патрабуе ад супрацоўнікаў выкарыстоўваць штучны інтэлект «усюды, дзе толькі магчыма»
Кітайскі вайбкодынгавая аплікацыя ўзарвала інтэрнэт, абрынулася, набрала мільён карыстальнікаў хутчэй за ChatGPT
Кітайскі вайбкодынгавая аплікацыя ўзарвала інтэрнэт, абрынулася, набрала мільён карыстальнікаў хутчэй за ChatGPT
Кітайскі вайбкодынгавая аплікацыя ўзарвала інтэрнэт, абрынулася, набрала мільён карыстальнікаў хутчэй за ChatGPT
Anthropic выпусціла «лепшую мадэль для кодынгу ў свеце»
Anthropic выпусціла «лепшую мадэль для кодынгу ў свеце»
Anthropic выпусціла «лепшую мадэль для кодынгу ў свеце»
Рынак не паверыў Хуангу: акцыі тэхгігантаў абваліліся пасля фінансавай справаздачы Nvidia
Рынак не паверыў Хуангу: акцыі тэхгігантаў абваліліся пасля фінансавай справаздачы Nvidia
Рынак не паверыў Хуангу: акцыі тэхгігантаў абваліліся пасля фінансавай справаздачы Nvidia
1 каментарый

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.