Извлечение новой структурированной информации с помощью метода машинного обучения путем последовательного расширения множества шаблоновдипломная работа (Специалист)
Аннотация:В данной работе был предложен метод для выделения пар (Имя, Должность), а также пополнения словарей. Данный метод может применяться для коллекций неразмеченных текстов на естественном языке в условиях отсутствия обучающих примеров.
На основании проведенных испытаний была сделана приблизительная оценка количества корректных шаблонов. Их число составило порядка 1500. Этот результат иллюстрирует, насколько сложно описать все шаблоны вручную и подтверждает обоснованность исследований автоматических методов выделения шаблонов.
Предложенный алгоритм позволил осуществить достаточно эффективное пополнение словаря имен – точность пополнения составила 94.7%. Таким образом, предложенный алгоритм может применяться для пополнения словарей на основе новых коллекций.