Мы запустили Dzik Pic Store. Заходи к нам в магазин за крутым мерчом ☃️
Support us

Microsoft показала ИИ-агента Magma, который может управлять приложениями и роботами

Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами.

Оставить комментарий
Microsoft показала ИИ-агента Magma, который может управлять приложениями и роботами

Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами.

Magma — интегрированная ИИ-модель, которая объединяет обработку визуальной информации и языка. Microsoft утверждает, что это первая ИИ-модель, способная не только обрабатывать мультимодальные данные (текст, изображения, видео), но и выполнять действия на их основе, такие как навигация по пользовательскому интерфейсу или манипулирование физическими объектами. Многие существующие системы требуют отдельные модели для этих функций.

Иллюстрация возможностей модели Magma. Источник: Microsoft Research.

В бенчмарках Magma демонстрирует конкурентоспособные результаты, особенно в задачах навигации по пользовательскому интерфейсу и манипулировании роботами. Например, в VQAv2 Magma получила 80,0 баллов, что выше, чем у GPT-4V (77,2), но ниже, чем у LLaVA-Next (81,8). В сфере манипулирования роботами Magma превосходит OpenVLA.

Схема обучения Magma. Источник: Microsoft Research.

Как и все ИИ-модели, Magma имеет ограничения. Она все еще сталкивается с трудностями при принятии сложных пошаговых решений, требующих многократных действий в течение времени. Microsoft продолжает работать над улучшением алгоритма. Компания планирует опубликовать исходный код Magma на GitHub, чтобы исследователи могли использовать эти наработки.

Название Magma расшифровывается как M (ultimodal) Ag (entic) M (odel) at Microsoft (Rese)A (rch). Разработкой Magma занимались специалисты из Microsoft, KAIST, Университета Мэриленда, Висконсинского университета в Мэдисоне и Университета Вашингтона.

Все чат-боты добавляют функцию Deep Research. Что это такое?
Все чат-боты добавляют функцию Deep Research. Что это такое?
По теме
Все чат-боты добавляют функцию Deep Research. Что это такое?
Microsoft создала ИИ-модель которая умеет генерировать геймплей
Microsoft создала ИИ-модель, которая умеет генерировать геймплей
По теме
Microsoft создала ИИ-модель, которая умеет генерировать геймплей
Google представила ИИ-агента который ускоряет научные открытия
Google представила ИИ-агента, который ускоряет научные открытия
По теме
Google представила ИИ-агента, который ускоряет научные открытия
🎊 Dzik Pic Store открыт и готов принимать заказы!

Заходи к нам в магазин

Читайте также
Кризис нехватки оперативной памяти затянется на годы. Компании ищут выход
Кризис нехватки оперативной памяти затянется на годы. Компании ищут выход
Кризис нехватки оперативной памяти затянется на годы. Компании ищут выход
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Аналитики: увольнения «из-за ИИ» — это фикция, которую компании придумали для маскировки проблем
Для появления сверхразумного ИИ не хватает лишь одной детали
Для появления сверхразумного ИИ не хватает лишь одной детали
Для появления сверхразумного ИИ не хватает лишь одной детали
3 комментария
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft
Как разработчику выжить в эпоху ИИ — советы инженера Microsoft

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.