Аннотация:Основная идея эффективного распознавания типов цифровых аудио сигналов заключается в получении алгоритма, который по входным данным с наибольшей точностью определяет соответствующий класс аудио сигнала. В рамках данной работы в качестве аудио сигналов рассматриваются музыкальные композиции стандартных аудио форматов. В качестве типа аудио сигналов принимается жанр. Жанр – род музыки, музыкальных произведений, характеризующийся определёнными сюжетными, композиционными, стилистическими и др. признаками. Так как данная задача не имеет строгого аналитического решения, и само решение строится непосредственно из используемых данных, реализованные методики могут быть обобщены и на другие задачи, связанные с выделением определенных типов аудио сигналов.
Результаты данных исследований могут применяться непосредственно в музыкальных сервисах, а именно для улучшения качества работы рекомендательных систем, так как помимо классификации по жанрам, что значит рекомендации пользователю музыкальных композиций непосредственно из жанровой составляющей, при дальнейшем развитии и тестировании предложенных методов, возможно рассматривать дополнительные рекомендательные системы, построенные на тональных (эмоциональных) составляющих аудио сигналов.
Для решения задачи используются инструменты машинного обучения, а именно – нейросетевой алгоритм (многослойный персептрон). Основным этапом для успешного решения задачи является стадия подготовки данных. В качестве данных используется набор аудио треков из 10 жанров. Для предобработки используются спектральной анализ и методики из задач распознавания речи. Критериями для оценки работы алгоритма являются следующие характеристики: точность решения, скорость сходимости, сохранение обобщающей способности.