ИИ научился «видеть по-человечески»: разбираться в смысле, а не пикселях

Исследователи из Google DeepMind, Anthropic и нескольких немецких университетов представили метод, который делает компьютерное зрение ближе к человеческому восприятию.

Оставить комментарий

По данным исследования, ИИ-модели, настроенные под структуру человеческих визуальных суждений, становятся значительно устойчивее, точнее и лучше обобщают информацию.

Ученые отмечают, что ключевая проблема современных нейросетей — в фундаментальном отличии того, как они «видят» мир. Люди выстраивают визуальные категории и связи иерархически: от деталей к абстракциям.

Визуализация показывает, как сильно отличается понимание мира у обычных моделей ИИ и моделей, обученных под человеческое восприятие. Источник: Nature.

Нейросети же опираются на локальные сходства и почти не улавливают смысловые связи — например, почему собака и рыба могут относиться к одной категории «живое», несмотря на полное внешнее несходство. Это приводит к ошибкам и чрезмерной уверенности моделей в неверных ответах.

Для устранения разрыва команда разработала систему AligNet. Она использует «модель-учителя» — улучшенную версию архитектуры компьютерного зрения SigLIP, которая обучена на человеческих оценках из датасета THINGS. Эта модель генерирует оценки для миллионов синтетических изображений, а затем эти данные используют для дообучения популярных архитектур вроде ViT и DINOv2.

Эксперименты показали, что совпадение выводов моделей с человеческими оценками существенно выросло. На новом датасете Levels, включающем оценки 473 человек, одна из моделей, настроенная AligNet, даже превзошла средний уровень согласованности между самими людьми.

Помимо «очеловечивания», модели стали технически лучше: в некоторых тестах их устойчивость и способность к обобщению удваивались. На наборе ImageNet-A точность выросла до +9,5 процентных пункта. Модели также научились реалистичнее оценивать свою уверенность — ближе к тому, как это делают люди. Внутренние представления тоже изменилась: объекты стали группироваться по смыслу, а не по цвету или форме.

Исследователи подчеркивают, что цель — не сделать ИИ полностью «человеческим», поскольку и человеческое восприятие подвержено культурным и личным искажениям. Но перенос структуры человеческого восприятия в фундаментальные модели может повысить их интерпретируемость и надежность в реальных условиях.

Google внедряет агентный шопинг: ИИ сам ищет, сравнивает и покупает товары
По теме
Google внедряет агентный шопинг: ИИ сам ищет, сравнивает и покупает товары
Только 9% программистов доверяют ИИ-коду без проверки
По теме
Только 9% программистов доверяют ИИ-коду без проверки
ByteDance запустила самый дешёвый ИИ для кодинга — всего за $1,30 в месяц
По теме
ByteDance запустила самый дешёвый ИИ для кодинга — всего за $1,30 в месяц

Читать на dev.by