200 инженеров в Варшаве обсуждают дыры в пайплайнах. Без вас?
Support us

Microsoft показала ИИ-агента Magma, который может управлять приложениями и роботами

Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами.

Оставить комментарий
Microsoft показала ИИ-агента Magma, который может управлять приложениями и роботами

Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами.

Magma — интегрированная ИИ-модель, которая объединяет обработку визуальной информации и языка. Microsoft утверждает, что это первая ИИ-модель, способная не только обрабатывать мультимодальные данные (текст, изображения, видео), но и выполнять действия на их основе, такие как навигация по пользовательскому интерфейсу или манипулирование физическими объектами. Многие существующие системы требуют отдельные модели для этих функций.

Иллюстрация возможностей модели Magma. Источник: Microsoft Research.

В бенчмарках Magma демонстрирует конкурентоспособные результаты, особенно в задачах навигации по пользовательскому интерфейсу и манипулировании роботами. Например, в VQAv2 Magma получила 80,0 баллов, что выше, чем у GPT-4V (77,2), но ниже, чем у LLaVA-Next (81,8). В сфере манипулирования роботами Magma превосходит OpenVLA.

Схема обучения Magma. Источник: Microsoft Research.

Как и все ИИ-модели, Magma имеет ограничения. Она все еще сталкивается с трудностями при принятии сложных пошаговых решений, требующих многократных действий в течение времени. Microsoft продолжает работать над улучшением алгоритма. Компания планирует опубликовать исходный код Magma на GitHub, чтобы исследователи могли использовать эти наработки.

Название Magma расшифровывается как M (ultimodal) Ag (entic) M (odel) at Microsoft (Rese)A (rch). Разработкой Magma занимались специалисты из Microsoft, KAIST, Университета Мэриленда, Висконсинского университета в Мэдисоне и Университета Вашингтона.

Все чат-боты добавляют функцию Deep Research. Что это такое?
Все чат-боты добавляют функцию Deep Research. Что это такое?
По теме
Все чат-боты добавляют функцию Deep Research. Что это такое?
Microsoft создала ИИ-модель которая умеет генерировать геймплей
Microsoft создала ИИ-модель, которая умеет генерировать геймплей
По теме
Microsoft создала ИИ-модель, которая умеет генерировать геймплей
Google представила ИИ-агента который ускоряет научные открытия
Google представила ИИ-агента, который ускоряет научные открытия
По теме
Google представила ИИ-агента, который ускоряет научные открытия
Читайте также
«Мы упустили момент Оппенгеймера для ИИ» — мнение эксперта
«Мы упустили момент Оппенгеймера для ИИ» — мнение эксперта
«Мы упустили момент Оппенгеймера для ИИ» — мнение эксперта
В США школьный ИИ принял за пистолет пачку чипсов и вызвал полицию
В США школьный ИИ принял за пистолет пачку чипсов и вызвал полицию
В США школьный ИИ принял за пистолет пачку чипсов и вызвал полицию
Anthropic, OpenAI и Perplexity рвутся в Индию — она становится важным компонентом глобальной ИИ-гонки
Anthropic, OpenAI и Perplexity рвутся в Индию — она становится важным компонентом глобальной ИИ-гонки
Anthropic, OpenAI и Perplexity рвутся в Индию — она становится важным компонентом глобальной ИИ-гонки
CEO Airbnb: если не брать зумеров, руководить скоро будет некому
CEO Airbnb: если не брать зумеров, руководить скоро будет некому
CEO Airbnb: если не брать зумеров, руководить скоро будет некому

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.