Apple незаметно для всех выложила мультимодальную ИИ-модель

Специалисты Apple и Корнелльского университета опубликовали исходный код мультимодальной большой языковой модели под названием Ferret, сообщает VentureBeat. Релиз состоялся ещё 30 октября, но остался незамеченным.

Оставить комментарий

Модель способна работать по отдельным регионам изображений, которые могут быть любой формы, например выделенными «от руки». Она может распознавать и обводить в прямоугольник объекты на них, а также использовать их и окружающий контекст для ответа на пользовательские запросы.

Например, можно выделить животного на рисунке и спросить, что это, а модель назовёт вид. Или можно обвести еду на картинке и спросить, как её приготовить.

Apple нечасто делится домашними наработками с внешним миром, и тем важнее вклад этого релиза в открытые ИИ-исследования. Параллельно компания расширяет инфраструктуру ИИ-серверов для обеспечения работы таких моделей.

Ferret обучена на 8 GPU A100 от Nvidia с 80 Гб памяти. Код доступен на GitHub для некоммерческого использования. Возможно, она найдёт применение в будущих продуктах Apple.

Насколько пользователи интересуются генеративным ИИ в Беларуси и других странах
По теме
Насколько пользователи интересуются генеративным ИИ в Беларуси и других странах
«Стих, стих, стих, стих…» В Google нашли интересный способ выудить у ChatGPT обучающие данные — включая персональные
По теме
«Стих, стих, стих, стих…» В Google нашли интересный способ выудить у ChatGPT обучающие данные — включая персональные
Чат-боту Amazon меньше недели, а он уже «галлюцинирует» и сливает координаты дата-центров компании
По теме
Чат-боту Amazon меньше недели, а он уже «галлюцинирует» и сливает координаты дата-центров компании

Читать на dev.by