Начните карьеру в cybersecurity: вакансии .Net | Python+.Net 🔥 Warsaw

DeepMind научили преобразовывать картинки в 3D-объекты

Оставить комментарий
DeepMind научили преобразовывать картинки в 3D-объекты

Принадлежащая Google компания по разработке искусственного интеллекта DeepMind представила алгоритм машинного зрения нового типа, который способен преобразовывать плоские картинки в объёмные 3D-модели, пишет VentureBeat.

Читать далее

Нейросеть Generative Query Network (GQN), о которой компания рассказала в научном журнале Science, умеет «представлять» и отрисовывать сцены с любого угла без какой-либо помощи или предшествующей тренировки со стороны человека. Алгоритму дают лишь несколько изображений композиции — например, обклеенной обоями комнаты с цветным шаром на полу, — на основе которых он восстанавливает невидимые стороны объектов и строит объёмную модель с нескольких точек наблюдения, при этом учитывая даже нюансы вроде освещения в тени.

Цель алгоритма — научиться воспринимать окружение и физическое взаимодействие между объектами подобно мозгу человека, а также избавить ИИ-исследователей от необходимости комментировать изображения в датасетах — для большинства систем распознавания приходится подписывать каждую деталь каждого объекта в каждой сцене датасета, что достаточно трудоёмко и затратно.

Лабиринт, созданный нейросетью DeepMind на основе статических изображений

Система включает две модели: репрезентативную и генеративную. Первая принимает вводные данные и преобразует в математический вид (вектор), описывающий сцену, а вторая изображает эту сцену. Для обучения системы исследователи DeepMind вводили картинки с разных углов зрения, на которых она самостоятельно изучала текстуры, цвета и освещение объектов по отдельности, а также их взаимное расположение в пространстве. Далее она предсказывала, как эти объекты могли бы выглядеть с противоположной стороны.

На основе понимания пространства сеть способна контролировать объекты. Например, поднять мяч с помощью виртуальной роботизированной руки. Перемещаясь по сцене она также сама исправляет ошибки и корректирует неверные предположения.

Интерактивный 3D-объект, созданный на основе 2D-изображений

GQN имеет и некоторые ограничения: пока её тестировали на простых сценах с малым количеством объектов. Кроме этого, она ещё не способна создавать сложные 3D-визуализации. Однако в DeepMind уже работают над более продвинутыми и экономными системами, а также фреймворками для обработки картинок с более высоким разрешением.

Подписывайтесь на «Что к чему» —
анамнез и главные симптомы беларуского ИТ.
Цифры, графика, ничего лишнего. Выходит раз в 2 недели.
Спасибо! На указанный адрес отправлено письмо для подтверждения подписки.
Читайте также
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
Bubble
«Будут проблемы». Что нас ждёт, когда картинок от нейросетей станет слишком много
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.