Николай Чикишев world 14 июля 2025, 13:24

ИИ не понимает fail-видео — и проваливает тест, который проходят дети

Исследование международной группы ученых выявило серьезный недостаток современных ИИ-моделей: они плохо справляются с неожиданностями и редко пересматривают свои первоначальные выводы — даже после того, как становятся очевидны ошибки.

Оставить комментарий

ИИ не понимает fail-видео — и проваливает тест, который проходят дети

Исследование международной группы ученых выявило серьезный недостаток современных ИИ-моделей: они плохо справляются с неожиданностями и редко пересматривают свои первоначальные выводы — даже после того, как становятся очевидны ошибки.

Ученые из Университета Британской Колумбии и Технологического университета Наньянга протестировали ведущие ИИ-системы на 1 600 популярных fail-видео из ютьюб-датасета Oops! Результаты легли в основу нового бенчмарка BlackSwanSuite, созданного для оценки способности ИИ понимать и адаптироваться к неожиданным событиям.

Пример: мужчина размахивает подушкой у елки. Модель GPT-4o «решает», что он собирается ударить кого-то. На деле подушка сбивает украшения, которые падают на женщину. Однако даже после просмотра полной сцены ИИ остается при своем первом (неправильном) предположении. Это типично: ИИ не склонны менять мнение, в отличие от человека, который способен быстро пересмотреть выводы при появлении новой информации.

Исследователи разделили каждый ролик на три части — вступление, неожиданный момент и последствия. Затем они сформировали три типа заданий: Forecaster, когда ИИ видит только начало видео и должен предсказать, что произойдет; Detective, когда показываются начало и конец, модель объясняет, что случилось между ними; Reporter, когда модель видит все видео и должна обновить свои предположения.

Всего было сформировано 15 469 вопросов для разных моделей, включая GPT-4o, Gemini 1.5 Pro, а также открытые системы вроде LLaVA-Video и VideoLLaMA 2. На задании «репортера», где нужно пересмотреть свои выводы после просмотра всей сцены, GPT-4o дал правильные ответы только в 60% случаев, тогда как люди — в 92%. Даже открытые модели показали схожую неустойчивость к неожиданностям.

Когда модели заменили видео на подробные человеческие описания, точность LLaVA-Video выросла на 10%. Это показывает, что ИИ все еще зависит от восприятия человека, а не способен к самостоятельному «пониманию» происходящего.