Дапамажыце dev.by 🤍
Падтрымаць

ШІ не разумее fail-відэа — і правальвае тэст, які праходзяць дзеці

Даследаванне міжнароднай групы навукоўцаў выявіла сур’ёзны недахоп сучасных ШІ-мадэляў: яны дрэнна спраўляюцца з нечаканасцямі і рэдка пераглядаюць свае першапачатковыя высновы — нават пасля таго, як становяцца відавочнымі памылкі.

Пакінуць каментарый
ШІ не разумее fail-відэа — і правальвае тэст, які праходзяць дзеці

Даследаванне міжнароднай групы навукоўцаў выявіла сур’ёзны недахоп сучасных ШІ-мадэляў: яны дрэнна спраўляюцца з нечаканасцямі і рэдка пераглядаюць свае першапачатковыя высновы — нават пасля таго, як становяцца відавочнымі памылкі.

Навукоўцы з Універсітэта Брытанскай Калумбіі і Тэхналагічнага ўніверсітэта Наньянга пратэставалі вядучыя ШІ-сістэмы на 1 600 папулярных fail-відэа з ютуб-датасета Oops! Вынікі леглі ў аснову новага бенчмарка BlackSwanSuite, створанага для ацэнкі здольнасці ШІ разумець і адаптавацца да нечаканых падзей.

Прыклад: мужчына размахвае падушкай ля елкі. Мадэль GPT-4o «вырашае», што ён збіраецца ўдарыць кагосьці. На самай справе падушка збівае ўпрыгожанні, якія падаюць на жанчыну. Аднак нават пасля прагляду поўнай сцэны ШІ застаецца пры сваім першым (няправільным) меркаванні. Гэта тыпова: ШІ не схільныя мяняць меркаванне, у адрозненне ад чалавека, які здольны хутка перагледзець высновы пры з’яўленні новай інфармацыі.

Даследчыкі падзялілі кожны ролік на тры часткі — уступ, нечаканы момант і наступствы. Затым яны сфармавалі тры тыпы заданняў: Forecaster, калі ШІ бачыць толькі пачатак відэа і павінен прадказаць, што адбудзецца; Detective, калі паказваюцца пачатак і канец, мадэль тлумачыць, што здарылася паміж імі; Reporter, калі мадэль бачыць усё відэа і павінна абнавіць свае меркаванні.

Усяго было сфармавана 15 469 пытанняў для розных мадэляў, уключаючы GPT-4o, Gemini 1.5 Pro, а таксама адкрытыя сістэмы кшталту LLaVA-Video і VideoLLaMA 2. На заданні «рэпарцёра», дзе трэба перагледзець свае высновы пасля прагляду ўсёй сцэны, GPT-4o даў правільныя адказы толькі ў 60% выпадкаў, тады як людзі — у 92%. Нават адкрытыя мадэлі паказалі падобную няўстойлівасць да нечаканасцяў.

Калі мадэлі замянілі відэа на падрабязныя чалавечыя апісанні, дакладнасць LLaVA-Video вырасла на 10%. Гэта паказвае, што ШІ усё яшчэ залежыць ад успрымання чалавека, а не здольны да самастойнага «разумення» таго, што адбываецца.

Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
Па тэме
Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
Па тэме
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Па тэме
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Чытайце таксама
Моладзь больш за іншыя пакаленні турбуецца пра ўплыў ШІ на працу
Моладзь больш за іншыя пакаленні турбуецца пра ўплыў ШІ на працу
Моладзь больш за іншыя пакаленні турбуецца пра ўплыў ШІ на працу
Як змяніліся сумоўі ў эпоху штучнага інтэлекту — досвед інжынера Google і Amazon
Як змяніліся сумоўі ў эпоху штучнага інтэлекту — досвед інжынера Google і Amazon
Як змяніліся сумоўі ў эпоху штучнага інтэлекту — досвед інжынера Google і Amazon
Топ-40 прафесій, якія найбольш уразлівыя перад ШІ
Топ-40 прафесій, якія найбольш уразлівыя перад ШІ
Топ-40 прафесій, якія найбольш уразлівыя перад ШІ
1 каментарый
Стваральнік капсулы для эўтаназіі даручыў ШІ ацэньваць гатоўнасць да смерці
Стваральнік капсулы для эўтаназіі даручыў ШІ ацэньваць гатоўнасць да смерці
Стваральнік капсулы для эўтаназіі даручыў ШІ ацэньваць гатоўнасць да смерці

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.