Support us

Подборка сервисов по расшифровке аудио от Самата Галимова

Самат Галимов, бывший CTO «Медузы» и нынешний партнёр «Феди и Самата», собрал в один пост в своем телеграм-канале «Запуск завтра» сервисы по переводу аудио в текст. С разрешения автора публикуем этот разбор.

3 комментария

Самат Галимов, бывший CTO «Медузы» и нынешний партнёр «Феди и Самата», собрал в один пост в своем телеграм-канале «Запуск завтра» сервисы по переводу аудио в текст. С разрешения автора публикуем этот разбор.

— У меня на руках было 18 часов аудиозаписей, которые нужно было перевести в текст. Как расшифровать аудио в текст?

Можно заплатить профессионалам (сервис zapisano). Можно самому всё слушать и печатать, это сложная и долгая работа.

Я решил скормить аудио дорожки машине и исправить трудные для алгоритма слова руками в специальном редакторе.

Для текстов на английском языке есть совершенно космический редактор — Descript. В нём редактируешь текст, а он при этом сам переставляет местами нужные куски аудио. Прорыв для редактуры подкастов, пока, к сожалению, для нас недоступный.

С поддержкой русского выбор немного сужается, но всё равно есть очень классные сервисы: 

Продукты отличаются моделью ценообразования и вниманием к деталям.

Эти сервисы не разрабатывают алгоритмы распознавания речи. Я уверен, что они пользуются облачными API одного из крупных игроков — у гугла эта штука называется Google Cloud Speech-to-Text. Практически идентичные решения есть у Яндекса, Амазона и Microsoft.

Даже с крутым сервисом, работа заняла у меня больше 40 часов. Я сильно недооценил необходимый объём труда.


Кстати, у Google есть вариант «поделиться своими аудиозаписями с Google для улучшения моделей распознавания». Тогда они дают скидку в 30% и берут за распознавания речи только 1.44$ в час.

Есть идея, что компании должны платить нам за наши данные. Это — первый известный мне пример реализации этой идеи на практике.

Читайте также
Meta выпустила бесплатную модель, которая распознаёт 1600 языков
Meta выпустила бесплатную модель, которая распознаёт 1600 языков
Meta выпустила бесплатную модель, которая распознаёт 1600 языков
OpenAI сделала голосовой чат в ChatGPT бесплатным — и намекнула на скандал с Альтманом
OpenAI сделала голосовой чат в ChatGPT бесплатным — и намекнула на скандал с Альтманом
OpenAI сделала голосовой чат в ChatGPT бесплатным — и намекнула на скандал с Альтманом
«Жить стало проще и веселее». Как айтишники используют ChatGPT с пользой в работе и дома
«Жить стало проще и веселее». Как айтишники используют ChatGPT с пользой в работе и дома
«Жить стало проще и веселее». Как айтишники используют ChatGPT с пользой в работе и дома
Спросили читателей, как они используют ChatGPT в быту и на работе. Нам прислали множество ответов, где нейросеть помогает проверять код и писать тексты, проходить собеседование, писать диссертацию и искать жильё в Германии. Почитайте, может, позаимствуете несколько идей.
4 комментария
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
Ад навукі да блогаў і тэхналогій: што пачытаць і паглядзець айцішніку на беларускай мове
5 комментариев

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

dmitrysergel
dmitrysergel CTO в Belarus LLC
-1

Для русского языка по адекватной цене могу посоветовать https://speechtext.ai/ru Качество расшифровки речи на моих аудиозаписях получилось где-то 80-85%. Редактор присутствует, можно подправить быстро ошибки. В основном у всех сервисов проблема распознавания специальных терминов. Happyscribe, Sonix, Trint и другие приведенные в статье - там цены атомные. За час аудиозаписи от 10 долларов или подписка на год. У SpeechText.AI цены такие же как у Google, только удобнее использовать.

Комментарий скрыт за нарушение правил комментирования.
П. 4.1.2. Пользовательского соглашения — https://dev.by/pages/agreement

0

Отличная подборка сервисов! Интересно увидеть, как технологии преобразуют процесс перевода аудио в текст. Важно отметить, что для повышения качества распознавания речи критически важна разметка данных, а компании, такие как Data Light (https://data-light.ru/), могут предложить решения для подготовки и аннотирования данных. Это, в свою очередь, поможет улучшить алгоритмы, что позволит меньшими усилиями достигать более высоких результатов в расшифровке. Отличная публикация, спасибо за информацию!