Николай Чикишев world 12 ноября 2025, 16:04

«Крёстная мать ИИ»: настоящий прорыв начнётся, когда ИИ научится понимать пространство

Создательница ImageNet и основательница стартапа World Labs Фэй-Фэй Ли считает, что следующий прорыв в развитии искусственного интеллекта произойдет не в языке, а в пространстве.

1 комментарий

«Крёстная мать ИИ»: настоящий прорыв начнётся, когда ИИ научится понимать пространство

Создательница ImageNet и основательница стартапа World Labs Фэй-Фэй Ли считает, что следующий прорыв в развитии искусственного интеллекта произойдет не в языке, а в пространстве.

Знаменитая исследовательница и «крестная мать» ИИ считает, что только научившись понимать движение, расстояние и физические взаимосвязи, машины смогут стать по-настоящему творческими партнерами человека.

В своей новой работе Ли пишет, что современные языковые модели, даже мультимодальные, остаются «слепыми» к физике мира. Они умеют анализировать тексты и изображения, но не способны определить, насколько далеко находится объект, как он ориентирован или что произойдет, если его повернуть. «Современные модели блистательно работают с информацией, но не умеют взаимодействовать с реальностью», — отмечает она.

По мнению Ли, интеллект человека возник из способности ощущать и двигаться: задолго до речи или мышления живые организмы выстраивали связь между восприятием и действием. Именно это — «перцептивно-моторное» кольцо — стало основой эволюции разума. Поэтому настоящему ИИ нужно не просто понимать слова, а строить внутренние модели мира, в которых работают законы физики.

Ли приводит исторические примеры того, как пространственное мышление определяло научные прорывы: Эратосфен измерил окружность Земли по тени, Джеймс Харгривз изобрел прялку «Дженни», увидев, что можно располагать шпиндели параллельно, а Уотсон и Крик поняли структуру ДНК только после того, как поиграли с трехмерными моделями.

Для следующего этапа эволюции ИИ, пишет Ли, нужны не языковые, а мировые модели — системы, которые не просто описывают, а создают и изменяют трехмерные сцены, соблюдая причинно-физическую логику. Такие модели должны быть генеративными (способными создавать целостные миры), мультимодальными (понимать текст, изображение, видео и жесты) и интерактивными (предсказывать последствия действий).

Ее команда в World Labs уже работает над этим направлением. Цель — создать алгоритмы, которые смогут обучаться так же просто, как языковые модели обучаются предсказанию следующего слова, но в пространственном измерении. Прототип системы Marble способен по мультимодальному запросу создавать устойчивые трехмерные сцены. Пока проект далек от совершенства, но Ли видит в нем шаг к «пространственно осознанному ИИ».

Первые приложения Marble связаны с дизайном и цифровым искусством, однако в будущем Ли видит потенциал в робототехнике и науке: машины, понимающие пространство, смогут планировать действия, проводить эксперименты и исследовать мир — от морских глубин до лунных кратеров. Как когда-то зрение стало эволюционным прорывом для живых существ, так и способность ИИ понимать пространство, по словам Ли, может стать ключом к новой стадии развития машинного разума.