У меня на руках было 18 часов аудиозаписей, которые нужно было перевести в текст. Как расшифровать аудио в текст?
Можно заплатить 
профессионалам.
Можно самому всё слушать и печатать, это сложная и долгая работа.
Я решил скормить аудио дорожки машине и исправить трудные для алгоритма слова руками в специальном редакторе.
Для текстов на английском языке есть совершенно космический редактор — 
Descript. В нем редактируешь текст, а он при этом сам переставляет местами нужные куски аудио. Прорыв для редактуры подкастов, пока, к сожалению, для нас недоступный.
С поддержкой русского выбор немного сужается, но всё равно есть очень классные сервисы: 
HappyScribe, 
Trint, 
SimonSays, 
Sonix. Эти продукты отличаются моделью ценообразования и вниманием к деталям. 
Эти сервисы не разрабывают алгоритмы распознавания речи. Я уверен, что они пользуются облачными API одного из крупных игроков — у гугла эта штука называется 
Google Cloud Speech-to-Text. Практические идентичные решения есть у 
Яндекса, 
Амазона и 
Microsoft.
По стоимости: расшифровка часа видеозвонка в 
гугле стоит 2.16$, у 
яндекса — 0.46$, а в 
Sonix — от 5 до 10$, остальные сервисы ещё дороже. Для сравнения, 
профессиональная  расшифровка с русского — около 23$ за час.
Даже с крутым сервисом, работа заняла у меня больше 40 часов. Я сильно недооценил необходимый объем труда.
_______
Источник: 
https://t.me/ctodaily/1173