Support us

Microsoft показала ИИ-агента Magma, который может управлять приложениями и роботами

Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами.

Оставить комментарий
Microsoft показала ИИ-агента Magma, который может управлять приложениями и роботами

Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами.

Magma — интегрированная ИИ-модель, которая объединяет обработку визуальной информации и языка. Microsoft утверждает, что это первая ИИ-модель, способная не только обрабатывать мультимодальные данные (текст, изображения, видео), но и выполнять действия на их основе, такие как навигация по пользовательскому интерфейсу или манипулирование физическими объектами. Многие существующие системы требуют отдельные модели для этих функций.

Иллюстрация возможностей модели Magma. Источник: Microsoft Research.

В бенчмарках Magma демонстрирует конкурентоспособные результаты, особенно в задачах навигации по пользовательскому интерфейсу и манипулировании роботами. Например, в VQAv2 Magma получила 80,0 баллов, что выше, чем у GPT-4V (77,2), но ниже, чем у LLaVA-Next (81,8). В сфере манипулирования роботами Magma превосходит OpenVLA.

Схема обучения Magma. Источник: Microsoft Research.

Как и все ИИ-модели, Magma имеет ограничения. Она все еще сталкивается с трудностями при принятии сложных пошаговых решений, требующих многократных действий в течение времени. Microsoft продолжает работать над улучшением алгоритма. Компания планирует опубликовать исходный код Magma на GitHub, чтобы исследователи могли использовать эти наработки.

Название Magma расшифровывается как M (ultimodal) Ag (entic) M (odel) at Microsoft (Rese)A (rch). Разработкой Magma занимались специалисты из Microsoft, KAIST, Университета Мэриленда, Висконсинского университета в Мэдисоне и Университета Вашингтона.

Все чат-боты добавляют функцию Deep Research. Что это такое?
Все чат-боты добавляют функцию Deep Research. Что это такое?
По теме
Все чат-боты добавляют функцию Deep Research. Что это такое?
Microsoft создала ИИ-модель которая умеет генерировать геймплей
Microsoft создала ИИ-модель, которая умеет генерировать геймплей
По теме
Microsoft создала ИИ-модель, которая умеет генерировать геймплей
Google представила ИИ-агента который ускоряет научные открытия
Google представила ИИ-агента, который ускоряет научные открытия
По теме
Google представила ИИ-агента, который ускоряет научные открытия
Читайте также
«Людям нужно платить как можно больше»: CEO Nvidia заявил, что сам так и поступает
«Людям нужно платить как можно больше»: CEO Nvidia заявил, что сам так и поступает
«Людям нужно платить как можно больше»: CEO Nvidia заявил, что сам так и поступает
«Я всё равно умру»: фаундер ИИ-стартапа спит в офисе на матрасе и работает 24/7
«Я всё равно умру»: фаундер ИИ-стартапа спит в офисе на матрасе и работает 24/7
«Я всё равно умру»: фаундер ИИ-стартапа спит в офисе на матрасе и работает 24/7
Не ИИ, а удалёнка лишила выпускников шансов на успешный старт карьеры — исследование
Не ИИ, а удалёнка лишила выпускников шансов на успешный старт карьеры — исследование
Не ИИ, а удалёнка лишила выпускников шансов на успешный старт карьеры — исследование
Как вам такое: CEO OpenAI считает, что лидеры по внедрению ИИ «больше всего нанимают»
Как вам такое: CEO OpenAI считает, что лидеры по внедрению ИИ «больше всего нанимают»
Как вам такое: CEO OpenAI считает, что лидеры по внедрению ИИ «больше всего нанимают»

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.