Black Friday x2 на devby: платите за одно размещение — получаете два. До 30.11
Support us

ИИ не понимает fail-видео — и проваливает тест, который проходят дети

Исследование международной группы ученых выявило серьезный недостаток современных ИИ-моделей: они плохо справляются с неожиданностями и редко пересматривают свои первоначальные выводы — даже после того, как становятся очевидны ошибки.

Оставить комментарий
ИИ не понимает fail-видео — и проваливает тест, который проходят дети

Исследование международной группы ученых выявило серьезный недостаток современных ИИ-моделей: они плохо справляются с неожиданностями и редко пересматривают свои первоначальные выводы — даже после того, как становятся очевидны ошибки.

Ученые из Университета Британской Колумбии и Технологического университета Наньянга протестировали ведущие ИИ-системы на 1 600 популярных fail-видео из ютьюб-датасета Oops! Результаты легли в основу нового бенчмарка BlackSwanSuite, созданного для оценки способности ИИ понимать и адаптироваться к неожиданным событиям.

Пример: мужчина размахивает подушкой у елки. Модель GPT-4o «решает», что он собирается ударить кого-то. На деле подушка сбивает украшения, которые падают на женщину. Однако даже после просмотра полной сцены ИИ остается при своем первом (неправильном) предположении. Это типично: ИИ не склонны менять мнение, в отличие от человека, который способен быстро пересмотреть выводы при появлении новой информации.

Исследователи разделили каждый ролик на три части — вступление, неожиданный момент и последствия. Затем они сформировали три типа заданий: Forecaster, когда ИИ видит только начало видео и должен предсказать, что произойдет; Detective, когда показываются начало и конец, модель объясняет, что случилось между ними; Reporter, когда модель видит все видео и должна обновить свои предположения.

Всего было сформировано 15 469 вопросов для разных моделей, включая GPT-4o, Gemini 1.5 Pro, а также открытые системы вроде LLaVA-Video и VideoLLaMA 2. На задании «репортера», где нужно пересмотреть свои выводы после просмотра всей сцены, GPT-4o дал правильные ответы только в 60% случаев, тогда как люди — в 92%. Даже открытые модели показали схожую неустойчивость к неожиданностям.

Когда модели заменили видео на подробные человеческие описания, точность LLaVA-Video выросла на 10%. Это показывает, что ИИ все еще зависит от восприятия человека, а не способен к самостоятельному «пониманию» происходящего.

Microsoft обучит 20 млн школьников работе с ИИ
Microsoft обучит 20 млн школьников работе с ИИ 
По теме
Microsoft обучит 20 млн школьников работе с ИИ
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
По теме
ИИ не заменит психотерапевта: боты только ухудшают состояние больных
Amazon запускает Starfish — ИИ-базу о всех товарах в мире
Amazon запускает Starfish — ИИ-базу о всех товарах в мире
По теме
Amazon запускает Starfish — ИИ-базу о всех товарах в мире
Читайте также
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
CEO Nvidia требует от сотрудников использовать ИИ «везде, где только можно»
Китайское вайбкодинговое приложение взорвало интернет, упало, набрало миллион пользователей быстрее ChatGPT
Китайское вайбкодинговое приложение взорвало интернет, упало, набрало миллион пользователей быстрее ChatGPT
Китайское вайбкодинговое приложение взорвало интернет, упало, набрало миллион пользователей быстрее ChatGPT
Anthropic выпустила «лучшую модель для кодинга в мире»
Anthropic выпустила «лучшую модель для кодинга в мире»
Anthropic выпустила «лучшую модель для кодинга в мире»
Рынок не поверил Хуангу: акции техногигантов обвалились после финансового отчёта Nvidia
Рынок не поверил Хуангу: акции техногигантов обвалились после финансового отчёта Nvidia
Рынок не поверил Хуангу: акции техногигантов обвалились после финансового отчёта Nvidia
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.