Kaldi - из коробки точность примерно на 10% хуже Гугла и Яндекса, быстро работает и есть куча готового. Но что б повысить точность работы надо тюнить модель под себя, а это лютый геморр
ESPnet - точность у самой топовой модели (ru_open_stt) выше на 10-15% Гугла и Яндекса. Всё у него хорошо, кроме скорости работы. У нас получилось около 1 сек на аудио 2-3 сек на процессоре Intel Core i7-8700. Но у данной модели есть гигантский минус - она обучена на датасете open_stt, который имеет лицензию только для некоммерческого использования
Mozilla DeepSpeech - архитектура старая, но Mozilla вливает туда тонны бабла, по этому она активно развивается. Для русского языка (проект по сбору данных common voice) там последний раз (в середине января) было 72 часа данных, что очень мало.