Alibaba выпустила ИИ-модель, которая может управлять ПК и телефонами
Ещё один сюрприз для OpenAI подготовила Alibaba: китайский техногигант вчера выпустил новое семейство многофункциональных моделей Qwen2.5-VL. Ранее китайский стартап DeepSeek выпустил большую языковую модель, которая гораздо дешевле o1, и генератор картинок, который на некоторых бенчмарках показал себя лучше DALLE-3.
Модели Qwen2.5-VL умеют выполнять различные задачи с текстовыми документами и визуалом. Они могут, например, обрабатывать графики и извлекать данные из сканов инвойсов и бланков, считать предметы на картинках, понимать происходящее на видео длиной в несколько часов (в том числе опознавать объекты интеллектуальной собственности и разные продукты в фильмах и сериалах). Однако одна из наиболее выдающихся функций — способность взаимодействовать с софтом компьютеров и смартфонов и управлять гаджетами. Подобно инструменту Operator от OpenAI, модель Qwen2.5-VL может, напрмер, открыть приложение Booking и забронировать авиабилеты.
Разработчики заявляют, что лучшая из моделей Qwen2.5-VL превосходит GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 2.0 Flash от Google в ряде тестов на понимание видео, анализ документов, ответы на вопросы и по математике. Однако на бенчмарке OSWorld, который имитирует компьютерную среду, результаты Qwen2.5-VL не очень.
Qwen2.5-VL доступны в приложении Qwen Chat, скачать модели можно на платформе Hugging Face, техлид которой продемонстрировал новинку в деле. Но поскольку модели китайские, нужно быть готовым к цензуре: они не будут обсуждать запретные темы вроде автономии Тайваня или «ошибок Си» — по этому запросу, например, приложение само выдаёт ошибку.
Две младшие модели на 3 млрд и 7 млрд параметров доступны свободно. Флагманская на 72 млрд параметров распространяется по кастомной лицензии Alibaba, которая обязует компании и разработчиков с 100+ ежемесячных активных пользователей запрашивать разрешение на коммерческое развёртывание модели.
Читать на dev.by