Mozilla представила обновление своей системы для распознавания речи. Версия DeepSpeech 0.6 является одной из самых быстрых опенсорсных моделей к сегодняшнему дню, пишет 3DNews.
В последней версии DeepSpeech интегрирована поддержка TensorFlow Lite — легковесной версии ML-библиотеки Google, оптимизированной под мобильные устройства. В результате размер DeepSpeech уменьшился с 98 Мб до 3,7 Мб, а размер готовой встроенной модели на английском языке — со 188 Мб до 47 Мб. Потребление памяти снизилось в 22 раза, а скорость запуска процесса обработки данных выросла более чем в 500 раз.
В целом DeepSpeech 0.6 стала значительно более производительной благодаря новому потоковому декодеру, который обеспечивает постоянно низкий уровень задержек и использования памяти независимо от длины транскрибируемого звука. Обе основные подсистемы платформы (акустическая модель и декодер) теперь поддерживают потоковую передачу, что избавляет разработчиков от необходимости тонкой настройки собственного оборудования. Обновлённая версия DeepSpeech способна обеспечить транскрипцию уже через 260 мс после окончания аудио — на 73% быстрее, чем до интеграции потокового декодера.
Что касается производительности, в новой версии системы в два раза сократились сроки обучения моделей. Этого удалось добиться благодаря использованию системы TensorFlow 1.14 и интеграции новых API.
Для обучения модели используется набор голосовых данных Common Voice, состоящий из 1400 часов речи на 18 разных языках. Разработчики отмечают, что это один из самых крупных многоязычных наборов голосовых данных. В настоящее время компания ведёт активную работу по сбору данных на 70 языках, чтобы ещё больше усовершенствовать DeepSpeech.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.