чисто теоретически, нейросеть может определить тембр, обертона, и передавать звук текстом, генерируя что-то похожее на исходник на выходе
ну звук это не картинка. Смысл такой связи только в звуке, можно даже без картинки. Если вместо голоса будет шум, сервисом никто не будет пользоваться. Не на руках же объяснять.