Аннотация:В рамках данной выпускной квалификационной работы рассматривалась задача распознавания автоматически порожденных (сгенерированных) текстов на русском языке. В ходе ее решения появилась дополнительная задача: было необходимо создать набор данных на русском языке, содержащий настоящие, написанные человеком, и автоматически порожденные тексты. Генерация последних осуществлялась с помощью языковых моделей. На полученном наборе данных проверялась работа методов распознавания.
Непосредственно решение задачи распознавания автоматически сгенерированных текстов включало в себя построение «детектора» или классификатора, который определял, являются тексты порожденными или нет. Для выбора наилучшего классификатора были проанализированы как классические методы машинного обучения, такие как наивный байес, метод опорных векторов, метод ближайших соседей и деревья решений, так и методы, опирающиеся на использование нейросетевых языковых моделей. Как и ожидалось, наилучшее качество показали нейросетевые языковые модели.