Аннотация:Решается задача увеличения текста на изображении для улучшения качества оптического распознавания (OCR). В своей работе автор применил известные нейросетевые методы DCSCN и SRGAN, которые решают задачу сверхразрешения общего назначения и показал несостоятельность оценки качества с помощью общепринятых показателей PSNR, SSIM.
Автор составил генератор искусственных изображений, подготовил собственную базу данных реальных изображений текста с различных устройств, разработал специфическую систему аугментации изображений текста, провёл обучение легковесной модели CARN и показал её превосходство над классическими подходами как в вычислительной сложности и времени работы, так и в качестве распознавания. Для оценки точности распознавания было использовано расстояние Левенштейна, позволяющее судить о качестве работы OCR на увеличенном изображении. Для удобства тестирования и демонстрации результатов модель была развернута в виде веб-сервиса.