Телеграмм чат группы tkhirianov_python

делается фурье преобразование, потом мы его уплотняем в соответствие с чувствительностью уха - разницу между высокими частотами мы хуже различаем чем между высокими

источник

04:50пожаловаться #8

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

выравниваем тем самым плотность информации речевой по всему размеру окна
а затем от этого берем дискретно-косинусное преобразование

источник

04:51пожаловаться #9

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

и получаем спектр спектра - собственно вектор, который довольно неплохо описывает именно речевую информацию всего несколькими отсчетами

источник

04:52пожаловаться #10

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

потом этими векторами кормим нейронку и она учится по ним распознавать какой отпечаток к какому слову из обучающей выборки относится

источник

04:53пожаловаться #11

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

потом эту сетку пихаем в контроллер и с микрофона сигнал преобразуем потоково в mfcc вектор и отдаем нейронке

источник

04:53пожаловаться #12

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

Переслано от mr.slavik

(19.32 Мб)

источник

04:54пожаловаться #13

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

работает довольно неплохо на 200мгц микроконтроллере, как видно - 6мс на все про все уходит

источник

04:54пожаловаться #14

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

если бы сетку учили тупо на преобразовании фурье - она бы не влезла в контроллер и работала бы гораздо хуже

источник

04:55пожаловаться #15

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

по сути - если представить что наш входной массив звуковых отсчетов это вектор/точка в N мерном конфигурационном пространстве - и мы хотим перейти в такое M мерное конфигурационное пространство, в котором записи слова одного от разных людей были бы точками которые находятся рядом друг с другом, а разные слова - далеко, тогда мы их сможем распознавать

источник

05:03пожаловаться #16

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

ну и вот оказывается что если использовать MFCC то размерность такого пространства оказывается на несколько порядков меньше чем исходное
что существенно снижает вычислительные затраты

источник

05:04пожаловаться #17

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

ну то же самое используется в JPEG кодировании например
или в любых других кодеках сжатия с потерями

источник

05:06пожаловаться #18

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

мы просто переходим в такое пространство, в котором большинство координат можно отбросить так как они зануляются

источник

05:08пожаловаться #19

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

при этом количество информации которую нужно хранить/обрабатывать снижается, но количество информации которая для нас существенна - незначительно

источник

05:09пожаловаться #20