Дапамажыце dev.by 🤍
Падтрымаць

ШІ не разумее fail-відэа — і правальвае тэст, які праходзяць дзеці

Даследаванне міжнароднай групы навукоўцаў выявіла сур’ёзны недахоп сучасных ШІ-мадэляў: яны дрэнна спраўляюцца з нечаканасцямі і рэдка пераглядаюць свае першапачатковыя высновы — нават пасля таго, як становяцца відавочнымі памылкі.

Пакінуць каментарый
ШІ не разумее fail-відэа — і правальвае тэст, які праходзяць дзеці

Даследаванне міжнароднай групы навукоўцаў выявіла сур’ёзны недахоп сучасных ШІ-мадэляў: яны дрэнна спраўляюцца з нечаканасцямі і рэдка пераглядаюць свае першапачатковыя высновы — нават пасля таго, як становяцца відавочнымі памылкі.

Навукоўцы з Універсітэта Брытанскай Калумбіі і Тэхналагічнага ўніверсітэта Наньянга пратэставалі вядучыя ШІ-сістэмы на 1 600 папулярных fail-відэа з ютуб-датасета Oops! Вынікі леглі ў аснову новага бенчмарка BlackSwanSuite, створанага для ацэнкі здольнасці ШІ разумець і адаптавацца да нечаканых падзей.

Прыклад: мужчына размахвае падушкай ля елкі. Мадэль GPT-4o «вырашае», што ён збіраецца ўдарыць кагосьці. На самай справе падушка збівае ўпрыгожанні, якія падаюць на жанчыну. Аднак нават пасля прагляду поўнай сцэны ШІ застаецца пры сваім першым (няправільным) меркаванні. Гэта тыпова: ШІ не схільныя мяняць меркаванне, у адрозненне ад чалавека, які здольны хутка перагледзець высновы пры з’яўленні новай інфармацыі.

Даследчыкі падзялілі кожны ролік на тры часткі — уступ, нечаканы момант і наступствы. Затым яны сфармавалі тры тыпы заданняў: Forecaster, калі ШІ бачыць толькі пачатак відэа і павінен прадказаць, што адбудзецца; Detective, калі паказваюцца пачатак і канец, мадэль тлумачыць, што здарылася паміж імі; Reporter, калі мадэль бачыць усё відэа і павінна абнавіць свае меркаванні.

Усяго было сфармавана 15 469 пытанняў для розных мадэляў, уключаючы GPT-4o, Gemini 1.5 Pro, а таксама адкрытыя сістэмы кшталту LLaVA-Video і VideoLLaMA 2. На заданні «рэпарцёра», дзе трэба перагледзець свае высновы пасля прагляду ўсёй сцэны, GPT-4o даў правільныя адказы толькі ў 60% выпадкаў, тады як людзі — у 92%. Нават адкрытыя мадэлі паказалі падобную няўстойлівасць да нечаканасцяў.

Калі мадэлі замянілі відэа на падрабязныя чалавечыя апісанні, дакладнасць LLaVA-Video вырасла на 10%. Гэта паказвае, што ШІ усё яшчэ залежыць ад успрымання чалавека, а не здольны да самастойнага «разумення» таго, што адбываецца.

Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
Па тэме
Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
Па тэме
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Па тэме
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Чытайце таксама
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
CEO Airbnb: калі не браць зумераў, кіраваць хутка будзе няма каму
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
ШІ заўважыў, што яго «ўзламалі» падчас эксперыменту
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
Meta абвінавацілі ў спампоўванні порна для ШІ. Кампанія заявіла, што спампоўвала "для сябе"
7 каментарыяў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў
Стваральнік ШІ-бота для тэхнічных сумоўяў назваў галоўную прычыну правалаў стартапаў

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.