Классификация веб-страниц на основе текстового содержимого с помощью языковой модели BERT (Bidirectional Encoder Representations from Transformers)дипломная работа (Бакалавр)
Аннотация:Рассматривается задача классификации веб-страниц на основе текстового содержимого. Для ее решения предлагается использовать языковую модель BERT, демонстрируется, как увеличить несбалансированный набор данных с помощью аугментации текстов. Для выбора эффективной модели предлагается сравнить различные модификации BERT. В вычислительных экспериментах приводятся результаты работы выбранного классификатора и методов аугментации на двух коллекциях: данные проекта ‘FOSS News’ и новостные веб-страницы сайта lenta.ru. В рамках работы реализованы два приложения с графическим интерфейсом для демонстрации полученных результатов.