Nvidia представила ИИ-систему перевода текста в изображение
Компания представила новую систему на базе технологий ИИ GauGAN2, которая позволяет создавать правдоподобные изображения по текстовому запросу.
Компания представила новую систему на базе технологий ИИ GauGAN2, которая позволяет создавать правдоподобные изображения по текстовому запросу.
GauGAN2 применяет сегментированное картирование, ретушь и преобразование текста в изображение. По сравнению с другими существующими моделями лежащая в основе GauGAN2 нейросеть производит более разнообразные и качественные изображения. Для этого пользователи могут ввести короткую фразу и сгенерировать его ключевые особенности и сюжет.
«Эту стартовую заготовку потом можно дорисовать, сделав ту или иную гору выше и добавив деревья на заднем плане или облака в небе», — сообщила участница команды Nvidia Иша Салиан.
GauGAN2 — это улучшенная версия системы GauGAN, созданной в 2019 году. Ее обучили на более миллиона открытых изображений с платформы Flickr. Новая версия понимает взаимосвязи между объектами, такими как снег, деревья, вода, цветы, кусты, холмы и горы, нейросеть «осознает», какие типы осадков характерны для каждого времени года.
В основе работы системы лежит генеративно-состязательная сеть, состоящая из генератора и дискриминатора. Генератор берет образцы изображений с сопроводительным текстом и предлагает, какие слова соответствуют элементам изображения. Дискриминатор оценивает, соответствует ли это предположение истине.
В версии GauGAN2 использовано уже 10 миллионов изображений для обучения. Если ввести текст «закат на пляже», то сеть сгенерирует соответсвующее изображение; если расширить фразу до «закат на каменистом пляже» или заменить «закат» на «дождливый день», нейросеть поймет значения и внесет соответствующие изменения.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.