Аннотация:Проведено исследование влияния функций активации на итоговую точность в задаче классификации изображений и построение вычислительно эффективной модели обучаемой функции активации, способной приблизить произвольную непрерывную функцию одного аргумента. Было предложено два варианта обучаемой непрерывной кусочно-линейной функции активации с заданным числом изломов (внешний параметр). В одном варианте точки изломов были равномерно распределены вокруг нуля, во втором координаты изломов также обучались. Сети с такими функциями активации могут точно воспроизвести сети с кусочно-линейными активациями ReLU, ReLU6, Leaky ReLU и PreLU, а другие приблизить тем точнее, чем больше число изломов. Тем самым можно ожидать результаты не хуже, чем со стационарными функциями. Качество классификации теоретически должно расти при увеличении числа изломов, как и число операций и время обучения сети, к сожалению.
Проведено обучение классификационной сети Resnet18 на базе данных CIFAR10 обоих вариантов реализации предложенных функций с различным числом изломов, выполнено сравнение с популярными функциями активации, отмечено улучшение качества классификации. Полученные в результате обучения функции на разных слоях были визуализированы: интересно, что часто они напоминают обычные функции активации. Было замечено, что малое число изломов иногда даёт лучший результат, чем большее, что противоречит теории. Это можно объяснить недетерминированностью процедуры обучения, она зависит от случайной инициализации и погрешностей вычисления (нужно проводить несколько экспериментов и усреднять результат). Возможно, процедура обучения оказалась слишком проста.