у гугла/амазона эти бесконечные сервера окупаются, значит смысл есть.
А если написать правильную прошивку, которая бы записывала только речь и после ещё сжимала, то объем трафика займёт вообще невероятную хуйню.
Эту хуйню прогонять по нейросетям или чем там биг дейту обрабатывают и вот мы уже видим ключевые слова