Я слышал, что либы для распознавания голоса есть, но никогда не гуглил/не лез в эту тематику
+ мне вообще казалось, что либ для таких задач нет, и все это работает так: записывается голос, голос заливается, например в гугл, в строке поиска гугл распознается речь => выдается записанная речь в виде текста, а потом уже сам текст копируется и вставляется в ответ пользователю (если от бота требовалось голос перевести в текст, например). Но это идея моего костыля, поэтому да.. 🙈