Атаки на классификационные языковые модели нейронных сетей - дипломная работа | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Научный руководитель: Половников В.С.
Автор: Давыдова Д.Н.
Тип: Магистр
Организация, в которой проходила защита: МГУ имени М.В. Ломоносова
Год защиты: 2023
Аннотация: В данной работе на основе языковой модели BERT с 12 трансформерными слоями (110 млн. обучаемых параметров) на базе данных imdb62 (62 тыс. отзывов к фильмам) была обучена классификационная языковая модель для решения задачи определения авторства текстов. На полученную модель осуществлены два типа атак: на уровне символов и на уровне слов. Первый тип предполагает удаление, перестановку или замена некоторых букв в важных для классификации словах. Автором показано, что не смотря на незначительные изменение, лишь 10% из ранее корректно классифицируемых случаев устояли перед атакой, но простая предварительная проверка текста по словарю позволяет выявить и практически исключить ошибки. Второй тип атаки заменой слов на синонимы оказался ещё более успешным и снизил точность классификации до 1%. В работе в качестве решения предложено дообучение нейронной сети на аугментированных данных (с заменой некоторых слов на синонимы). Такой подход позволил снизить эффективность атаки и в 56% случаях производить верную классификацию.
Добавил в систему: Половников Владимир Сергеевич

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Атаки на классификационные языковые модели нейронных сетейдипломная работа (Магистр)