Дапамажыце dev.by 🤍
Падтрымаць

ШІ не разумее fail-відэа — і правальвае тэст, які праходзяць дзеці

Даследаванне міжнароднай групы навукоўцаў выявіла сур’ёзны недахоп сучасных ШІ-мадэляў: яны дрэнна спраўляюцца з нечаканасцямі і рэдка пераглядаюць свае першапачатковыя высновы — нават пасля таго, як становяцца відавочнымі памылкі.

Пакінуць каментарый
ШІ не разумее fail-відэа — і правальвае тэст, які праходзяць дзеці

Даследаванне міжнароднай групы навукоўцаў выявіла сур’ёзны недахоп сучасных ШІ-мадэляў: яны дрэнна спраўляюцца з нечаканасцямі і рэдка пераглядаюць свае першапачатковыя высновы — нават пасля таго, як становяцца відавочнымі памылкі.

Навукоўцы з Універсітэта Брытанскай Калумбіі і Тэхналагічнага ўніверсітэта Наньянга пратэставалі вядучыя ШІ-сістэмы на 1 600 папулярных fail-відэа з ютуб-датасета Oops! Вынікі леглі ў аснову новага бенчмарка BlackSwanSuite, створанага для ацэнкі здольнасці ШІ разумець і адаптавацца да нечаканых падзей.

Прыклад: мужчына размахвае падушкай ля елкі. Мадэль GPT-4o «вырашае», што ён збіраецца ўдарыць кагосьці. На самай справе падушка збівае ўпрыгожанні, якія падаюць на жанчыну. Аднак нават пасля прагляду поўнай сцэны ШІ застаецца пры сваім першым (няправільным) меркаванні. Гэта тыпова: ШІ не схільныя мяняць меркаванне, у адрозненне ад чалавека, які здольны хутка перагледзець высновы пры з’яўленні новай інфармацыі.

Даследчыкі падзялілі кожны ролік на тры часткі — уступ, нечаканы момант і наступствы. Затым яны сфармавалі тры тыпы заданняў: Forecaster, калі ШІ бачыць толькі пачатак відэа і павінен прадказаць, што адбудзецца; Detective, калі паказваюцца пачатак і канец, мадэль тлумачыць, што здарылася паміж імі; Reporter, калі мадэль бачыць усё відэа і павінна абнавіць свае меркаванні.

Усяго было сфармавана 15 469 пытанняў для розных мадэляў, уключаючы GPT-4o, Gemini 1.5 Pro, а таксама адкрытыя сістэмы кшталту LLaVA-Video і VideoLLaMA 2. На заданні «рэпарцёра», дзе трэба перагледзець свае высновы пасля прагляду ўсёй сцэны, GPT-4o даў правільныя адказы толькі ў 60% выпадкаў, тады як людзі — у 92%. Нават адкрытыя мадэлі паказалі падобную няўстойлівасць да нечаканасцяў.

Калі мадэлі замянілі відэа на падрабязныя чалавечыя апісанні, дакладнасць LLaVA-Video вырасла на 10%. Гэта паказвае, што ШІ усё яшчэ залежыць ад успрымання чалавека, а не здольны да самастойнага «разумення» таго, што адбываецца.

Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
Па тэме
Microsoft навучыць 20 млн школьнікаў працаваць з ШІ
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
Па тэме
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Па тэме
Amazon запускае Starfish — ШІ-базу пра ўсе тавары ў свеце
Чытайце таксама
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Разработка роботов, дронов и робомобилей: где учат специалистов с зарплатой $100k+
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
Думскроллинг вредит психике и физическому здоровью пользователей
Думскроллинг вредит психике и физическому здоровью пользователей
Думскроллинг вредит психике и физическому здоровью пользователей
3 каментарыя
Школьник выложил 2,5 часа геймплея ремейка The Last of Us до официального релиза
Школьник выложил 2,5 часа геймплея ремейка The Last of Us до официального релиза
Школьник выложил 2,5 часа геймплея ремейка The Last of Us до официального релиза
1 каментарый
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
В России создали бесплатного конкурента генератора картинок DALL-E 2
2 каментарыя

Хочаце паведаміць важную навіну? Пішыце ў Telegram-бот

Галоўныя падзеі і карысныя спасылкі ў нашым Telegram-канале

Абмеркаванне
Каментуйце без абмежаванняў

Рэлацыраваліся? Цяпер вы можаце каментаваць без верыфікацыі акаўнта.

Каментарыяў пакуль няма.