Подход нормальный, но для определённых задач нужна определённая теоретическая база: чтобы вывести "hello world" в консоль, надо б синтаксис понимать, чтобы сайт написать - http-запросы, а для более сложных штук, как правило, нужны сорта математики
надо - изучим)
яж не требую "двое из ларца выньте по моему хотению по моему велению модуль диковенный чтоб за меня всю работу делал"
Но если есть возможность облегчить себе жизнь и не писать алгоритм/функцию/модуль с нуля, почему бы и нет?
Например есть OpenCV для изображений
В теории должно быть что-то подобноее для звука (просто ещё не встречалось)
Или вообще с помощью того же OpenCV сравнивать