OpenAI добавила новый генератор изображений в ChatGPT
Компания объявила о крупном обновлении в ChatGPT, внедрив новую функцию генерации изображений на базе передовой мультимодальной модели GPT-4o. Эта интеграция делает создание и редактирование изображений доступным непосредственно в интерфейсе чат-бот для всех пользователей.
Новая функция получила название 4o Image Generation (Images in ChatGPT). Она способна гораздо лучше понимать контекст и точно интерпретировать сложные запросы. В отличие от DALL·E 3, GPT-4o демонстрирует значительные улучшения в связывании атрибутов с объектами, корректно обрабатывая множество элементов на изображении.
Если прежние модели могли путать цвета и формы при работе с 5-8 объектами, то GPT-4o способен без ошибок обрабатывать до 15-20. Кроме того, новая модель значительно улучшила генерацию читаемого текста непосредственно на изображениях, что ранее было серьезной проблемой.
Разработчики применили авторегрессивный подход к генерации изображений: система создает изображение последовательно, слева направо и сверху вниз. Такой метод, отличный от диффузионного подхода DALL-E, где изображение создается целиком, предположительно обеспечивает более точный контроль над деталями, особенно при работе с текстом и сложными сценами.
Помимо генерации новых изображений 4o Image Generation предлагает возможность редактировать уже загруженные пользователем изображения. По текстовому запросу можно добавлять или удалять объекты. Также улучшена работа с прозрачным фоном для создания логотипов, стикеров и элементов интерфейса.
Все сгенерированные изображения будут содержать метаданные C2PA, указывающие на их происхождение. Система также блокирует генерацию дипфейков, сцен насилия и материалов, связанных с эксплуатацией детей. Компания подчеркнула, что были приняты меры для предотвращения злоупотреблений, особенно это касается дипфейков.
Несмотря на отсутствие видимых водяных знаков, OpenAI имеет инструменты для отслеживания происхождения изображений. Компания сообщает, что также предоставляет форму отказа для авторов, желающих исключить свои работы из обучающих данных, и учитывает запросы на запрет сбора данных с определенных сайтов.
Функция 4o Image Generation уже доступна всем пользователям ChatGPT, включая тех, кто использует бесплатный тариф. Для бесплатных пользователей установлен лимит в 3 изображения в день, аналогичный лимиту DALL·E 3.
Читать на dev.by