Как помочь редакции делать еще больше полезного контента?
Support us

Microsoft показала ИИ-агента Magma, который может управлять приложениями и роботами

Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами.

Оставить комментарий
Microsoft показала ИИ-агента Magma, который может управлять приложениями и роботами

Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами.

Magma — интегрированная ИИ-модель, которая объединяет обработку визуальной информации и языка. Microsoft утверждает, что это первая ИИ-модель, способная не только обрабатывать мультимодальные данные (текст, изображения, видео), но и выполнять действия на их основе, такие как навигация по пользовательскому интерфейсу или манипулирование физическими объектами. Многие существующие системы требуют отдельные модели для этих функций.

Иллюстрация возможностей модели Magma. Источник: Microsoft Research.

В бенчмарках Magma демонстрирует конкурентоспособные результаты, особенно в задачах навигации по пользовательскому интерфейсу и манипулировании роботами. Например, в VQAv2 Magma получила 80,0 баллов, что выше, чем у GPT-4V (77,2), но ниже, чем у LLaVA-Next (81,8). В сфере манипулирования роботами Magma превосходит OpenVLA.

Схема обучения Magma. Источник: Microsoft Research.

Как и все ИИ-модели, Magma имеет ограничения. Она все еще сталкивается с трудностями при принятии сложных пошаговых решений, требующих многократных действий в течение времени. Microsoft продолжает работать над улучшением алгоритма. Компания планирует опубликовать исходный код Magma на GitHub, чтобы исследователи могли использовать эти наработки.

Название Magma расшифровывается как M (ultimodal) Ag (entic) M (odel) at Microsoft (Rese)A (rch). Разработкой Magma занимались специалисты из Microsoft, KAIST, Университета Мэриленда, Висконсинского университета в Мэдисоне и Университета Вашингтона.

Все чат-боты добавляют функцию Deep Research. Что это такое?
Все чат-боты добавляют функцию Deep Research. Что это такое?
По теме
Все чат-боты добавляют функцию Deep Research. Что это такое?
Microsoft создала ИИ-модель которая умеет генерировать геймплей
Microsoft создала ИИ-модель, которая умеет генерировать геймплей
По теме
Microsoft создала ИИ-модель, которая умеет генерировать геймплей
Google представила ИИ-агента который ускоряет научные открытия
Google представила ИИ-агента, который ускоряет научные открытия
По теме
Google представила ИИ-агента, который ускоряет научные открытия
Помогите нам делать больше полезного контента — поддержите редакцию.

Все способы поддержки

Читайте также
8 доступных курсов по робототехнике для взрослых и детей (июнь 2023 г.)
8 доступных курсов по робототехнике для взрослых и детей (июнь 2023 г.)
8 доступных курсов по робототехнике для взрослых и детей (июнь 2023 г.)
Коллеги из JADIRECTIVES собрали, а мы дополнили курсы, тренинги и онлайн-программы по робототехнике, которые будет интересно изучить не только взрослым, но и детям.
Sony не может договориться с Microsoft о продлении выпуска Call of Duty на PlayStation
Sony не может договориться с Microsoft о продлении выпуска Call of Duty на PlayStation
Sony не может договориться с Microsoft о продлении выпуска Call of Duty на PlayStation
1 комментарий
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Microsoft запустила обучающий сайт по Java
Microsoft запустила обучающий сайт по Java
Microsoft запустила обучающий сайт по Java
1 комментарий

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.