Аннотация:На базе задачи классификации эмоций проведено сравнение различных методов обучения нейронных сетей. Ранее в курсовой работ сравнивались ансамбли нейронных сетей и апробированы методы дистилляции знаний (knowledge distillation), совместного обучения (mutual learning). В данной выпускной работе рассмотрен метод самодистилляции, предложенный в 19 году группой китайских учёных. Оказалось, что точность классификации архитектурой при самодистилляции превосходит точность обучения такой же модели в режиме совместного обучения и значительно позволяет сократить ресурсы в процессе обучения, так как, по сути, происходит обучение одной, пусть и расширенной сети, а не нескольких. Таким образом значительно экономится память и время, затрачиваемое на обновление параметров. Данный вывод подтвержден на различных классификационных сетях группы Resnet и VGG при использовании вариаций градиентного спуска SGD, Adam, AdaBelief.