Подборка сервисов по расшифровке аудио от Самата Галимова

Самат Галимов, бывший CTO «Медузы» и нынешний партнёр «Феди и Самата», собрал в один пост в своем телеграм-канале «Запуск завтра» сервисы по переводу аудио в текст. С разрешения автора публикуем этот разбор.

3 комментария

— У меня на руках было 18 часов аудиозаписей, которые нужно было перевести в текст. Как расшифровать аудио в текст?

Можно заплатить профессионалам (сервис zapisano). Можно самому всё слушать и печатать, это сложная и долгая работа.

Я решил скормить аудио дорожки машине и исправить трудные для алгоритма слова руками в специальном редакторе.

Для текстов на английском языке есть совершенно космический редактор — Descript. В нём редактируешь текст, а он при этом сам переставляет местами нужные куски аудио. Прорыв для редактуры подкастов, пока, к сожалению, для нас недоступный.

С поддержкой русского выбор немного сужается, но всё равно есть очень классные сервисы: 

Продукты отличаются моделью ценообразования и вниманием к деталям.

Эти сервисы не разрабатывают алгоритмы распознавания речи. Я уверен, что они пользуются облачными API одного из крупных игроков — у гугла эта штука называется Google Cloud Speech-to-Text. Практически идентичные решения есть у Яндекса, Амазона и Microsoft.

По стоимости: расшифровка часа видеозвонка в Google стоит 2.16$, у Яндекса — 0.46$, а в Sonix — от 5 до 10$, остальные сервисы ещё дороже. Для сравнения, профессиональная расшифровка с русского — около 23$ за час.

Даже с крутым сервисом, работа заняла у меня больше 40 часов. Я сильно недооценил необходимый объём труда.


Кстати, у Google есть вариант «поделиться своими аудиозаписями с Google для улучшения моделей распознавания». Тогда они дают скидку в 30% и берут за распознавания речи только 1.44$ в час.

Есть идея, что компании должны платить нам за наши данные. Это — первый известный мне пример реализации этой идеи на практике.


Читать на dev.by