17% скидка на размещение рекламы на площадках devby — до 20 ноября. Клац!
Support us

Подборка сервисов по расшифровке аудио от Самата Галимова

Самат Галимов, бывший CTO «Медузы» и нынешний партнёр «Феди и Самата», собрал в один пост в своем телеграм-канале «Запуск завтра» сервисы по переводу аудио в текст. С разрешения автора публикуем этот разбор.

3 комментария

Самат Галимов, бывший CTO «Медузы» и нынешний партнёр «Феди и Самата», собрал в один пост в своем телеграм-канале «Запуск завтра» сервисы по переводу аудио в текст. С разрешения автора публикуем этот разбор.

— У меня на руках было 18 часов аудиозаписей, которые нужно было перевести в текст. Как расшифровать аудио в текст?

Можно заплатить профессионалам (сервис zapisano). Можно самому всё слушать и печатать, это сложная и долгая работа.

Я решил скормить аудио дорожки машине и исправить трудные для алгоритма слова руками в специальном редакторе.

Для текстов на английском языке есть совершенно космический редактор — Descript. В нём редактируешь текст, а он при этом сам переставляет местами нужные куски аудио. Прорыв для редактуры подкастов, пока, к сожалению, для нас недоступный.

С поддержкой русского выбор немного сужается, но всё равно есть очень классные сервисы: 

Продукты отличаются моделью ценообразования и вниманием к деталям.

Эти сервисы не разрабатывают алгоритмы распознавания речи. Я уверен, что они пользуются облачными API одного из крупных игроков — у гугла эта штука называется Google Cloud Speech-to-Text. Практически идентичные решения есть у Яндекса, Амазона и Microsoft.

Даже с крутым сервисом, работа заняла у меня больше 40 часов. Я сильно недооценил необходимый объём труда.


Кстати, у Google есть вариант «поделиться своими аудиозаписями с Google для улучшения моделей распознавания». Тогда они дают скидку в 30% и берут за распознавания речи только 1.44$ в час.

Есть идея, что компании должны платить нам за наши данные. Это — первый известный мне пример реализации этой идеи на практике.

Читайте также
OpenAI сделала голосовой чат в ChatGPT бесплатным — и намекнула на скандал с Альтманом
OpenAI сделала голосовой чат в ChatGPT бесплатным — и намекнула на скандал с Альтманом
OpenAI сделала голосовой чат в ChatGPT бесплатным — и намекнула на скандал с Альтманом
«Жить стало проще и веселее». Как айтишники используют ChatGPT с пользой в работе и дома
«Жить стало проще и веселее». Как айтишники используют ChatGPT с пользой в работе и дома
«Жить стало проще и веселее». Как айтишники используют ChatGPT с пользой в работе и дома
Спросили читателей, как они используют ChatGPT в быту и на работе. Нам прислали множество ответов, где нейросеть помогает проверять код и писать тексты, проходить собеседование, писать диссертацию и искать жильё в Германии. Почитайте, может, позаимствуете несколько идей.
4 комментария
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
5 комментариев
Для креативных. 5 текстов Bubble, которые научат графическому, веб и UX/UI-дизайну
Для креативных. 5 текстов Bubble, которые научат графическому, веб и UX/UI-дизайну
Для креативных. 5 текстов Bubble, которые научат графическому, веб и UX/UI-дизайну

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

dmitrysergel
dmitrysergel CTO в Belarus LLC
-1

Для русского языка по адекватной цене могу посоветовать https://speechtext.ai/ru Качество расшифровки речи на моих аудиозаписях получилось где-то 80-85%. Редактор присутствует, можно подправить быстро ошибки. В основном у всех сервисов проблема распознавания специальных терминов. Happyscribe, Sonix, Trint и другие приведенные в статье - там цены атомные. За час аудиозаписи от 10 долларов или подписка на год. У SpeechText.AI цены такие же как у Google, только удобнее использовать.

Комментарий скрыт за нарушение правил комментирования.
П. 4.1.2. Пользовательского соглашения — https://dev.by/pages/agreement

0

Отличная подборка сервисов! Интересно увидеть, как технологии преобразуют процесс перевода аудио в текст. Важно отметить, что для повышения качества распознавания речи критически важна разметка данных, а компании, такие как Data Light (https://data-light.ru/), могут предложить решения для подготовки и аннотирования данных. Это, в свою очередь, поможет улучшить алгоритмы, что позволит меньшими усилиями достигать более высоких результатов в расшифровке. Отличная публикация, спасибо за информацию!