Живете в Польше? Поддержите devby 1,5% налога: бесплатно и за 5 минут 🤗
Support us

Microsoft показала ИИ-агента Magma, который может управлять приложениями и роботами

Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами.

Оставить комментарий
Microsoft показала ИИ-агента Magma, который может управлять приложениями и роботами

Подразделение Microsoft Research представило Magma, новую мультимодальную ИИ-модель, которая может управлять программными интерфейсами и роботизированными системами.

Magma — интегрированная ИИ-модель, которая объединяет обработку визуальной информации и языка. Microsoft утверждает, что это первая ИИ-модель, способная не только обрабатывать мультимодальные данные (текст, изображения, видео), но и выполнять действия на их основе, такие как навигация по пользовательскому интерфейсу или манипулирование физическими объектами. Многие существующие системы требуют отдельные модели для этих функций.

Иллюстрация возможностей модели Magma. Источник: Microsoft Research.

В бенчмарках Magma демонстрирует конкурентоспособные результаты, особенно в задачах навигации по пользовательскому интерфейсу и манипулировании роботами. Например, в VQAv2 Magma получила 80,0 баллов, что выше, чем у GPT-4V (77,2), но ниже, чем у LLaVA-Next (81,8). В сфере манипулирования роботами Magma превосходит OpenVLA.

Схема обучения Magma. Источник: Microsoft Research.

Как и все ИИ-модели, Magma имеет ограничения. Она все еще сталкивается с трудностями при принятии сложных пошаговых решений, требующих многократных действий в течение времени. Microsoft продолжает работать над улучшением алгоритма. Компания планирует опубликовать исходный код Magma на GitHub, чтобы исследователи могли использовать эти наработки.

Название Magma расшифровывается как M (ultimodal) Ag (entic) M (odel) at Microsoft (Rese)A (rch). Разработкой Magma занимались специалисты из Microsoft, KAIST, Университета Мэриленда, Висконсинского университета в Мэдисоне и Университета Вашингтона.

Все чат-боты добавляют функцию Deep Research. Что это такое?
Все чат-боты добавляют функцию Deep Research. Что это такое?
По теме
Все чат-боты добавляют функцию Deep Research. Что это такое?
Microsoft создала ИИ-модель которая умеет генерировать геймплей
Microsoft создала ИИ-модель, которая умеет генерировать геймплей
По теме
Microsoft создала ИИ-модель, которая умеет генерировать геймплей
Google представила ИИ-агента который ускоряет научные открытия
Google представила ИИ-агента, который ускоряет научные открытия
По теме
Google представила ИИ-агента, который ускоряет научные открытия
Поддержите редакцию 1,5% налога: бесплатно и за 5 минут

Как помочь, если вы в Польше

Читайте также
McKinsey похвасталась запуском 25 000 ИИ-агентов. Конкуренты: цифры ничего не значат
McKinsey похвасталась запуском 25 000 ИИ-агентов. Конкуренты: цифры ничего не значат
McKinsey похвасталась запуском 25 000 ИИ-агентов. Конкуренты: цифры ничего не значат
Google представила Gemini 3 Deep Think — мощный ИИ для науки и инженерии
Google представила Gemini 3 Deep Think — мощный ИИ для науки и инженерии
Google представила Gemini 3 Deep Think — мощный ИИ для науки и инженерии
Индийские ИТ-компании потеряли $50 млрд из-за ИИ с начала февраля — худший результата почти за год
Индийские ИТ-компании потеряли $50 млрд из-за ИИ с начала февраля — худший результата почти за год
Индийские ИТ-компании потеряли $50 млрд из-за ИИ с начала февраля — худший результата почти за год
1 комментарий
В сети вирусится кампания QuitGPT — бойкот ChatGPT
В сети вирусится кампания QuitGPT — бойкот ChatGPT
В сети вирусится кампания QuitGPT — бойкот ChatGPT

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.