Отдел новостей 15 июня 2018, 12:18

DeepMind научили преобразовывать картинки в 3D-объекты

Принадлежащая Google компания по разработке искусственного интеллекта DeepMind представила алгоритм машинного зрения нового типа, который способен преобразовывать плоские картинки в объёмные 3D-модели, пишет VentureBeat.

Нейросеть Generative Query Network (GQN), о которой компания рассказала в научном журнале Science, умеет «представлять» и отрисовывать сцены с любого угла без какой-либо помощи или предшествующей тренировки со стороны человека. Алгоритму дают лишь несколько изображений композиции — например, обклеенной обоями комнаты с цветным шаром на полу, — на основе которых он восстанавливает невидимые стороны объектов и строит объёмную модель с нескольких точек наблюдения, при этом учитывая даже нюансы вроде освещения в тени.

Цель алгоритма — научиться воспринимать окружение и физическое взаимодействие между объектами подобно мозгу человека, а также избавить ИИ-исследователей от необходимости комментировать изображения в датасетах — для большинства систем распознавания приходится подписывать каждую деталь каждого объекта в каждой сцене датасета, что достаточно трудоёмко и затратно.

Лабиринт, созданный нейросетью DeepMind на основе статических изображений

Система включает две модели: репрезентативную и генеративную. Первая принимает вводные данные и преобразует в математический вид (вектор), описывающий сцену, а вторая изображает эту сцену. Для обучения системы исследователи DeepMind вводили картинки с разных углов зрения, на которых она самостоятельно изучала текстуры, цвета и освещение объектов по отдельности, а также их взаимное расположение в пространстве. Далее она предсказывала, как эти объекты могли бы выглядеть с противоположной стороны.

На основе понимания пространства сеть способна контролировать объекты. Например, поднять мяч с помощью виртуальной роботизированной руки. Перемещаясь по сцене она также сама исправляет ошибки и корректирует неверные предположения.

Интерактивный 3D-объект, созданный на основе 2D-изображений

GQN имеет и некоторые ограничения: пока её тестировали на простых сценах с малым количеством объектов. Кроме этого, она ещё не способна создавать сложные 3D-визуализации. Однако в DeepMind уже работают над более продвинутыми и экономными системами, а также фреймворками для обработки картинок с более высоким разрешением.