по сути - если представить что наш входной массив звуковых отсчетов это вектор/точка в N мерном конфигурационном пространстве - и мы хотим перейти в такое M мерное конфигурационное пространство, в котором записи слова одного от разных людей были бы точками которые находятся рядом друг с другом, а разные слова - далеко, тогда мы их сможем распознавать