Support us

ИИ не понимает fail-видео — и проваливает тест, который проходят дети

Исследование международной группы ученых выявило серьезный недостаток современных ИИ-моделей: они плохо справляются с неожиданностями и редко пересматривают свои первоначальные выводы — даже после того, как становятся очевидны ошибки.

Оставить комментарий
ИИ не понимает fail-видео — и проваливает тест, который проходят дети

Исследование международной группы ученых выявило серьезный недостаток современных ИИ-моделей: они плохо справляются с неожиданностями и редко пересматривают свои первоначальные выводы — даже после того, как становятся очевидны ошибки.

Ученые из Университета Британской Колумбии и Технологического университета Наньянга протестировали ведущие ИИ-системы на 1 600 популярных fail-видео из ютьюб-датасета Oops! Результаты легли в основу нового бенчмарка BlackSwanSuite, созданного для оценки способности ИИ понимать и адаптироваться к неожиданным событиям.

Пример: мужчина размахивает подушкой у елки. Модель GPT-4o «решает», что он собирается ударить кого-то. На деле подушка сбивает украшения, которые падают на женщину. Однако даже после просмотра полной сцены ИИ остается при своем первом (неправильном) предположении. Это типично: ИИ не склонны менять мнение, в отличие от человека, который способен быстро пересмотреть выводы при появлении новой информации.

Исследователи разделили каждый ролик на три части — вступление, неожиданный момент и последствия. Затем они сформировали три типа заданий: Forecaster, когда ИИ видит только начало видео и должен предсказать, что произойдет; Detective, когда показываются начало и конец, модель объясняет, что случилось между ними; Reporter, когда модель видит все видео и должна обновить свои предположения.

Всего было сформировано 15 469 вопросов для разных моделей, включая GPT-4o, Gemini 1.5 Pro, а также открытые системы вроде LLaVA-Video и VideoLLaMA 2. На задании «репортера», где нужно пересмотреть свои выводы после просмотра всей сцены, GPT-4o дал правильные ответы только в 60% случаев, тогда как люди — в 92%. Даже открытые модели показали схожую неустойчивость к неожиданностям.

Когда модели заменили видео на подробные человеческие описания, точность LLaVA-Video выросла на 10%. Это показывает, что ИИ все еще зависит от восприятия человека, а не способен к самостоятельному «пониманию» происходящего.

Microsoft обучит 20 млн школьников работе с ИИ
Microsoft обучит 20 млн школьников работе с ИИ 
По теме
Microsoft обучит 20 млн школьников работе с ИИ
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
По теме
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
Amazon запускает Starfish — ИИ-базу о всех товарах в мире
Amazon запускает Starfish — ИИ-базу о всех товарах в мире
По теме
Amazon запускает Starfish — ИИ-базу о всех товарах в мире
Как поддержать редакцию, если вы в Польше?

Помогите нам делать больше полезного контента

Читайте также
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Профессии будущего со скидкой 75% от Udacity: разработка роботов, дронов и робомобилей
Искусственный интеллект уже стал повседневностью: голосовой помощник включает музыку, робот-пылесос сканирует пространство и убирает квартиру, алгоритм ранжирования настраивает ленту в TikTok, а беспилотные такси уже свободно курсируют по городам. Получить профессию в сфере ИИ с зарплатой от $100k в год тоже стало проще — собрали 5 интересных курсов от Udacity. 
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Думскроллинг вредит психике и физическому здоровью пользователей
Думскроллинг вредит психике и физическому здоровью пользователей
Думскроллинг вредит психике и физическому здоровью пользователей
3 комментария
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.