В отличие от человека, компьютеры не очень эффективно выделяли один нужный голос из множества. Решение этой проблемы нашли разработчики Google: они создали систему глубокого обучения, которая способна различать и сопоставлять отдельные голоса с лицами людей в процессе речи, сообщает Engadget.
Исследователи Google обучали нейронную сеть самостоятельно распознавать, когда говорит тот или иной человек, а далее создавали виртуальный фоновый шум, чтобы ИИ научился выделять каждый из голосов в раздельные звуковые дорожки. Теперь даже когда несколько человек говорят одновременно, машинный разум способен генерировать чистый аудиопоток для каждого из них, просто фокусируясь на лицах. Причём лица остаются в фокусе, даже если их частично закрыть рукой или микрофоном.
Google рассматривает возможности применения этой функции в собственных продуктах: функцию можно встроить в такие сервисы, как Hangouts или Duo, чтобы позволить настраиваться на голос определённого человека в заполненной комнате, а также улучшить качество звучания голоса на видеозаписях. Новинкой уже заинтересовались многие другие компании.
Помимо этого, разработку можно использовать в совместимых с видеокамерами слуховых устройствах, чтобы повысить чёткость речи собеседника для их пользователей, или для создания более качественных субтитров к видео.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.