Аннотация:Лексическая нормализация — это задача преобразования текста к лексической норме. Под лексической нормой обычно подразумевают отсутствие в тексте орфографических ошибок и опечаток, аббревиатур и других сокращений, сленга, просторечий, архаизмов, жаргонизмов и прочих аномальных элементов. Целью лексической нормализации является уменьшение лексической и орфографической вариации текста для облегчения его последующей обработки, анализа и понимания. Для русского языка задача лексической нормализации исследована недостаточно, в открытом доступе отсутствуют программы, осуществляющие ее. Поэтому целью данной выпускной квалификационной работы стало создание программного модуля лексической нормализации текстов на русском языке. Для этого нами были
проанализированы современные методы нормализации. По результатам анализа для настройки на рассматриваемую задачу была выбрана языковая модель ByT5. Дообучение проводилось на сформированном нами наборе русскоязычных данных. Проведено экспериментальное исследование дообученной модели и сравнение качества её работы с другими языковыми моделями.