Google представила Imagen — нейросеть, которая создает безумные изображения по текстовому описанию
Компания представила нейросеть Imagen, которая генерирует изображения на основе текста.
Компания представила нейросеть Imagen, которая генерирует изображения на основе текста.
Для создания изображений используется метод диффузии: все начинается со схематичного изображения, которое потом улучшается, пока искусственный интеллект не решит, что не может сделать его еще более похожим на заданные параметры. Imagen начинает с создания небольшого (64×64 пикселя) изображения. Затем выполняет два прохода «сверхвысокого разрешения», чтобы довести картинку до размера 1024×1024.
Суперразрешение ИИ создает новые детали на картинке, чтобы сделать е более похожей на «техническое задание», которое прописано в текстовом запросе. Например, при запросе «собака на велосипеде» глава собаки сначала будут иметь ширину 3 пикселя, потом — 12, и в третьей версии — уже 48 пикселей.
Разработчики пояснили, что созданная нейросеть генерирует изображения по описанию с «беспрецедентным фотореализмом». Они сравнивают Imagen с DALL-E 2 — аналогичным ИИ, создающим изображения на основе текста, от OpenAI. Компания заявила, что Imagen опережает DALL-E 2 в тестах на человеческую оценку как по точности, так и по достоверности. Во время эксперимента люди чаще отдавали предпочтения изображениям, сгенерированным нейросетью Google.
Пока Imagen работает в режиме закрытой бета-версии. Для того чтобы избежать потенциальных рисков, связанных с этикой, разработчики не стали публиковать код и проводить публичную демонстрацию сервиса. На сайте доступна демо-версия, в которой пользователи не могут вводить запросы, но способны лишь выбирать слова из предложенных.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Жаль, что нельзя попробовать в действии.