ШІ не разумее fail-відэа — і правальвае тэст, які праходзяць дзеці
Даследаванне міжнароднай групы навукоўцаў выявіла сур’ёзны недахоп сучасных ШІ-мадэляў: яны дрэнна спраўляюцца з нечаканасцямі і рэдка пераглядаюць свае першапачатковыя высновы — нават пасля таго, як становяцца відавочнымі памылкі.
Даследаванне міжнароднай групы навукоўцаў выявіла сур’ёзны недахоп сучасных ШІ-мадэляў: яны дрэнна спраўляюцца з нечаканасцямі і рэдка пераглядаюць свае першапачатковыя высновы — нават пасля таго, як становяцца відавочнымі памылкі.
Навукоўцы з Універсітэта Брытанскай Калумбіі і Тэхналагічнага ўніверсітэта Наньянга пратэставалі вядучыя ШІ-сістэмы на 1 600 папулярных fail-відэа з ютуб-датасета Oops! Вынікі леглі ў аснову новага бенчмарка BlackSwanSuite, створанага для ацэнкі здольнасці ШІ разумець і адаптавацца да нечаканых падзей.
Прыклад: мужчына размахвае падушкай ля елкі. Мадэль GPT-4o «вырашае», што ён збіраецца ўдарыць кагосьці. На самай справе падушка збівае ўпрыгожанні, якія падаюць на жанчыну. Аднак нават пасля прагляду поўнай сцэны ШІ застаецца пры сваім першым (няправільным) меркаванні. Гэта тыпова: ШІ не схільныя мяняць меркаванне, у адрозненне ад чалавека, які здольны хутка перагледзець высновы пры з’яўленні новай інфармацыі.
Даследчыкі падзялілі кожны ролік на тры часткі — уступ, нечаканы момант і наступствы. Затым яны сфармавалі тры тыпы заданняў: Forecaster, калі ШІ бачыць толькі пачатак відэа і павінен прадказаць, што адбудзецца; Detective, калі паказваюцца пачатак і канец, мадэль тлумачыць, што здарылася паміж імі; Reporter, калі мадэль бачыць усё відэа і павінна абнавіць свае меркаванні.
Усяго было сфармавана 15 469 пытанняў для розных мадэляў, уключаючы GPT-4o, Gemini 1.5 Pro, а таксама адкрытыя сістэмы кшталту LLaVA-Video і VideoLLaMA 2. На заданні «рэпарцёра», дзе трэба перагледзець свае высновы пасля прагляду ўсёй сцэны, GPT-4o даў правільныя адказы толькі ў 60% выпадкаў, тады як людзі — у 92%. Нават адкрытыя мадэлі паказалі падобную няўстойлівасць да нечаканасцяў.
Калі мадэлі замянілі відэа на падрабязныя чалавечыя апісанні, дакладнасць LLaVA-Video вырасла на 10%. Гэта паказвае, што ШІ усё яшчэ залежыць ад успрымання чалавека, а не здольны да самастойнага «разумення» таго, што адбываецца.
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity.
Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.