Николай Чикишев 25 мая 2022, 10:38

Google представила Imagen — нейросеть, которая создает безумные изображения по текстовому описанию

Компания представила нейросеть Imagen, которая генерирует изображения на основе текста.

Для создания изображений используется метод диффузии: все начинается со схематичного изображения, которое потом улучшается, пока искусственный интеллект не решит, что не может сделать его еще более похожим на заданные параметры. Imagen начинает с создания небольшого (64×64 пикселя) изображения. Затем выполняет два прохода «сверхвысокого разрешения», чтобы довести картинку до размера 1024×1024.

Суперразрешение ИИ создает новые детали на картинке, чтобы сделать е более похожей на «техническое задание», которое прописано в текстовом запросе. Например, при запросе «собака на велосипеде» глава собаки сначала будут иметь ширину 3 пикселя, потом — 12, и в третьей версии — уже 48 пикселей.

«Милый корги живет в доме, сделанном из суши»

«Гигантская змея-кобра на ферме. Змея сделана из кукурузы»

«Голубая сойка стоит на большой корзине с радужными макаронами»

«Хромированная утка с золотым клювом спорит со злой черепахой в лесу»

Разработчики пояснили, что созданная нейросеть генерирует изображения по описанию с «беспрецедентным фотореализмом». Они сравнивают Imagen с DALL-E 2 — аналогичным ИИ, создающим изображения на основе текста, от OpenAI. Компания заявила, что Imagen опережает DALL-E 2 в тестах на человеческую оценку как по точности, так и по достоверности. Во время эксперимента люди чаще отдавали предпочтения изображениям, сгенерированным нейросетью Google.

Пока Imagen работает в режиме закрытой бета-версии. Для того чтобы избежать потенциальных рисков, связанных с этикой, разработчики не стали публиковать код и проводить публичную демонстрацию сервиса. На сайте доступна демо-версия, в которой пользователи не могут вводить запросы, но способны лишь выбирать слова из предложенных.