Аннотация:В работе проводится сравнение точности классификации современных свёрточных сетей и сетей линейки ViT на относительно небольших датасетах Chest X-ray и Standford Cars. Первый представляет собой набор из 5856 медицинских рентгеновских снимков грудной клетки человека, по которым требуется определить отсутствие или тип пневмонии (бактериальная/вирусная). Второй – 16185 снимков автомобилей, которые нужно отнести к 196 классам.
В обоих случаях трансформерные архитектуры превзошли свёрточные аналоги.