Алгоритм распознавания речи Deep Speech 2 преобразует голосовые сообщения в текст в три раза быстрее, чем люди. Испытание системы провели специалисты из Стэнфордского университета, Университета штата Вашингтон и сотрудники Baidu, сообщает apparat.cc со ссылкой на NPR.
Deep Speech 2 разработана в Лаборатории искусственного интеллекта SVAIL китайской компании Baidu. Тестирование технологии проводилось при распознавании устной речи на двух языках: английском и мандаринском.
Участники «соревнований» должны были воспринять на слух, а затем набрать на клавиатуре iPhone короткие фразы без контекста, например «пристегнуть ремень безопасности» или «носить корону с множеством драгоценных камней». Для текстинга использовали наиболее популярные раскладки: сенсорную стандартную QWERTY-клавиатуру для английского языка, а для китайском — специальную iOS-клавиатуру.
Оказалось, что скорость Deep Speech 2 значительно превышает скорость человеческого набора: с сообщениями на английском языке программа справляется в 3 раза быстрее, а на китайском — в 2,8 раз быстрее, чем люди. Кроме того, печатая фразы на английском языке, программа допускает на 20,4% меньше ошибок, чем люди, а на китайском — на 63,4% меньше.
«Речь всегда была гораздо более естественным способом общения между людьми», — говорит главный научный консультант Baidu Эндрю Ын.
Он надеется, что результаты исследования привлекут внимание пользователей к различным голосовым сервисам. Согласно опросу, в 2015 году только 65% владельцев смартфонов в США пользовалисьголосовыми помощниками.
В конце 2015 года Baidu усовершенствовала распознавание английского в шумных местах, а также создала новую аппаратную платформу на видеокартах, в семь раз увеличив производительность по сравнению с предыдущей версией сервера для Deep Speech.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.