Support us

Искусственный интеллект научили узнавать объекты по словесному описанию

Оставить комментарий
Искусственный интеллект научили узнавать объекты по словесному описанию

Обычно алгоритмы машинного обучения специализируются на какой-то одной задаче, но исследователи из Массачусетского технологического института создали ИИ-модель, которая одинаково хорошо распознаёт и речь, и объекты, пишет VentureBeat.

Система училась определять объекты на картинках и связывать слова, которые она слышала на аудиозаписях, с областями картинок. При этом алгоритм ни разу не «подглядывал» в скрипты или аннотации и тренировался исключительно на парах картинок и звуковых фрагментах.

«Мы хотели, чтобы модель распознавала речь более привычным образом, используя дополнительные источники и информацию, которые доступны человеку. У нас появилась идея обучить модель подобно тому, как обучают детей — описывая словами окружающий их мир», — отметил один из соавторов работы.

Модель, о которой учёные уже писали в работе 2016 года, состоит из двух свёрточных нейросетей: первая анализирует изображения, а вторая — спектрограммы, то есть визуальное представление спектра. В процессе обучения первая нейросеть разделяла вводное изображение на сеть ячеек, а вторая, отвечающая за обработку аудио, разделяла спектрограмму на сегменты. Далее третий компонент модели производил вычисления над их выходными данными, совмещая первую ячейку с первым сегментом аудио, вторую — со вторым сегментом и так далее со всей картинкой целиком.

Всего система получила 400 тысяч пар картинок и аннотаций, после чего ИИ научился подбирать сотням различных слов соответствующие объекты. По мнению учёных, в будущем его можно будет применять, например, в машинном переводе.

Читайте также
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
TinyML, No-code и обучение с подкреплением: новейшие тренды в машинном обучении
Пока 20% топ-менеджеров утверждают, что машинное обучение является существенной частью их бизнеса, неудивительно, что стоимость мирового рынка машинного обучения, по некоторым оценкам, достигнет $117 млрд к концу 2027 года. Мы перевели материал Udacity о семи самых обсуждаемых тенденциях в машинном обучении в 2022 году.
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Нейросеть «оживляет» классические пиксельные игры
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Meta разработала ИИ для «чтения мыслей»
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
Во Франции искусственный интеллект помогает искать нелегальные бассейны и штрафовать нарушителей
3 комментария

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.