Аннотация:В данной работе на основе языковой модели BERT с 12 трансформерными слоями (110 млн. обучаемых параметров) на базе данных imdb62 (62 тыс. отзывов к фильмам) была обучена классификационная языковая модель для решения задачи определения авторства текстов. На полученную модель осуществлены два типа атак: на уровне символов и на уровне слов. Первый тип предполагает удаление, перестановку или замена некоторых букв в важных для классификации словах. Автором показано, что не смотря на незначительные изменение, лишь 10% из ранее корректно классифицируемых случаев устояли перед атакой, но простая предварительная проверка текста по словарю позволяет выявить и практически исключить ошибки. Второй тип атаки заменой слов на синонимы оказался ещё более успешным и снизил точность классификации до 1%. В работе в качестве решения предложено дообучение нейронной сети на аугментированных данных (с заменой некоторых слов на синонимы). Такой подход позволил снизить эффективность атаки и в 56% случаях производить верную классификацию.