Место издания:Издательский отдел факультета ВМиК МГУ Москва, МГУ
Первая страница:65
Последняя страница:75
Аннотация:Одним из основных препятствий при разработке приложений, связанных с автоматической обработкой текстов на естественном языке, является присутствие в текстах большого числа неоднозначностей различного типа, в частности, грамматических омонимов. Системы, способные достаточно неплохо разрешать омонимию, в большинстве своем основаны на правилах, составление которых требует привлечения специалистов из области лингвистики, проведения большого объема лингвистических исследований. Актуальным становится вопрос о возможности использования машинного обучения для формирования разрешающих правил.
Для эффективного решения поставленной задачи предлагается алгоритм построения решающих деревьев с помощью признаков, получаемых из контекста. Источником размеченных текстов служит Национальный корпус русского языка. Кроме того, для целей более глубокого анализа возможностей алгоритма создан дополнительный инструмент разметки омонимов для неразмеченных текстов. Алгоритм, в отличие от классического решающего дерева, позволяет эффективно обрабатывать номинальные признаки. Произведено сравнение качества работы алгоритма с некоторыми методами машинного обучения. Механизм работы подробно описан на примере некоторых видов омонимов, для них показана полнота описания решающих правил. Данная работа предоставляет эффективный способ снятия большей части неоднозначностей, возникающих в тексте после этапа его морфологического анализа, и может служить в качестве основы для алгоритмов, разрешающих другие виды омонимии.