Аннотация:В магистерской диссертации исследуется задача оптимизации применения современных архитектур искусственных нейронных сетей для извлечения именованных сущностей из текстов в области информационной безопасности.
В большинстве предметных областей помимо стандартной номенклатуры именованных сущностей – персон, организаций, локаций, методы извлечения которых хорошо известны – существуют другие типы сущностей, важные в данной сфере. Обычно такие типы сущностей можно отнести к «редким» из-за трудностей с получением размеченной коллекции для обучения методов их извлечения. Лучшие результаты по извлечению редких типов именованных сущностей достигаются при использовании современных нейросетевых архитектур на основе предобученных языковых моделей.
Эффективные предобученные модели содержат сотни миллионов оптимизируемых параметров и требуют существенных вычислительных ресурсов для их обучения, также предъявляют повышенные требования к ресурсам при их использовании.
Магистрантом исследовалась актуальная задача использования более простых нейросетевых архитектур для решения задачи выявления редких типов именованных сущностей, когда в качестве учителя для более простой нейронной сети выступает обученная сложная сеть. Такая задача часто называется «дистилляция знаний нейронных сетей».
В диссертации И.А.Мажарова исследуются возможности дистилляции знаний на примере замены применения нейросетевой архитектуры типа BERT («сеть-учитель», более 170 миллионов параметров) на более легкие в обучении и использовании нейронные сети типа двунаправленных сетей с долговременной краткосрочной памятью (biLSTM, («сеть-ученик», 300 тысяч параметров), в том числе с дополнительным применением метода условных случайных полей (CRF).
Студентом были предложены и обоснованы различные модификации нейросетевых архитектур, исследована зависимость результатов от различных параметров рассмотренных моделей дистилляции знаний. Показано, что дистилляция знаний больших нейросетевых моделей на более простые приводит к улучшению качества результатов решения целевой задачи при сохранении сравнительно невысоких требований к используемым вычислительным ресурсам.