Microsoft представила ИИ-модель Kosmos-1, которая понимает текст в картинке и решает головоломки

Компания представила ИИ-модель Kosmos-1, которая способна анализировать содержание изображений, решать графические головоломки, проходить визуальные тесты на IQ и многое другое.

3 комментария

По мнению ученых, создание мультимодального ИИ, который способен работать в текстовом, аудио- и графическом режимах (включая аудио), — это ключевой шаг на пути формирования «общего искусственного интеллекта», который будет справляться с многопрофильными задачами.

В опубликованной статье Language Is Not All You Need: Aligning Perception with Language Models исследователи рассказывают, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, подписывает иллюстрации и проходит визуальный тест на IQ. Считается, что создание «общего искусственного интеллекта» позволит полностью заменить людей при выполнении любых интеллектуальных задач.

Исследователи называют свою работу «мультимодальной большой языковой моделью» (MLLM). Система преобразует иллюстрацию в серию преимущественно текстовых «токенов», которые анализируются, затем текст и другие элементы обрабатываются специальным декодером. Сообщается, что во многих тестах Kosmos-1 превосходит лучшие из существующих ИИ-моделей.

Например, модель проходит тест британского психолога Джона К. Рейвена, который позволяет измерить IQ. Испытуемым демонстрируют последовательность форм с предложением продолжить ее. Однако пока Kosmos-1 проходит тест Рейвена с точностью только 22-26%. В будущем ученые планируют масштабировать модель и добавить возможность вести беседы.

Meta собирает команду для встраивания ИИ-технологий в Facebook и Instagram
По теме
Meta собирает команду для встраивания ИИ-технологий в Facebook и Instagram
Американский регулятор впервые принял решение об авторских правах на изображение, созданное ИИ 
По теме
Американский регулятор впервые принял решение об авторских правах на изображение, созданное ИИ
Глава Nvidia: нужно создать жесткие нормы искусственного интеллекта для безопасности людей
По теме
Глава Nvidia: нужно создать жесткие нормы искусственного интеллекта для безопасности людей

Читать на dev.by