Size: a a a

Хирьянов Т.Ф., Практика программирования на Python 3 (2019)

2020 May 11

КК

Кирилл Картвелишвили... in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
спасибо
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
Кирилл Картвелишвили
mfcc какая-то страшная штука, я погуглил, но ничо не понял
это по сути обвес над преобразованием фурье, нормализующий его в соответствие с чувствительностью человека
источник

КК

Кирилл Картвелишвили... in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
я бы хотел, чтобы мне это о чём-то говорило, но увы)
ща гуглить буду
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
позволяет снять отпечаток с куска звука например
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
и вместо 16000 отсчетов описывающих 1 секунду записанной речи, например - получить 16 отсчетов которые описывают также этот кусок
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
источник

КК

Кирилл Картвелишвили... in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
окей чот жесть какая-то я пожалуй сначала школьную программу поучу)
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
делается фурье преобразование, потом мы его уплотняем в соответствие с чувствительностью уха - разницу между высокими частотами мы хуже различаем чем между высокими
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
выравниваем тем самым плотность информации речевой по всему размеру окна
а затем от этого берем дискретно-косинусное преобразование
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
и получаем спектр спектра - собственно вектор, который довольно неплохо описывает именно речевую информацию всего несколькими отсчетами
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
потом этими векторами кормим нейронку и она учится по ним распознавать какой отпечаток к какому слову из обучающей выборки относится
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
потом эту сетку пихаем в контроллер и с микрофона сигнал преобразуем потоково в mfcc вектор и отдаем нейронке
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
Переслано от mr.slavik
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
работает довольно неплохо на 200мгц микроконтроллере, как видно - 6мс на все про все уходит
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
если бы сетку учили тупо на преобразовании фурье - она бы не влезла в контроллер и работала бы гораздо хуже
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
по сути - если представить что наш входной массив звуковых отсчетов это вектор/точка в N мерном конфигурационном пространстве - и мы хотим перейти в такое M мерное конфигурационное пространство, в котором записи слова одного от разных людей были бы точками которые находятся рядом друг с другом, а разные слова - далеко, тогда мы их сможем распознавать
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
ну и вот оказывается что если использовать MFCC то размерность такого пространства оказывается на несколько порядков меньше чем исходное
что существенно снижает вычислительные затраты
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
ну то же самое используется в JPEG кодировании например
или в любых других кодеках сжатия с потерями
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
мы просто переходим в такое пространство, в котором большинство координат можно отбросить так как они зануляются
источник

m

mr.slavik in Хирьянов Т.Ф., Практика программирования на Python 3 (2019)
при этом количество информации которую нужно хранить/обрабатывать снижается, но количество информации которая для нас существенна - незначительно
источник