Организация, в которой проходила защита:
МГУ имени М.В. Ломоносова
Год защиты:2017
Аннотация:В магистерской диссертации рассматривается задача автоматического построения обзорного реферата по большой коллекции новостных документов в виде «исторической справки». То есть требуется сформировать аналитический документ, содержащий описание предистории наблюдаемого события.
Формальная постановка задачи заключается в том, чтобы выбрать оптимальным образом фрагменты новостных документов из базы данных. Критерий оптимальности задается степенью соответствия с обзорными рефератами, сформированными экспертами.
В качестве коллекции рассматривался корпус реальных новостей за первое полугодие 2015 года (более 2 миллионов документов). Студенту была предоставлена база данных новостей с инструментом доступа в виде поискового индекса, поддерживаемого лабораторией анализа информационных ресурсов НИВЦ МГУ.
Решение задачи зависит от большого числа параметров: формирования запросов к поисковому индексу, определения релевантных фрагментов извлекаемых документов, их
В процессе работы над темой студентом, прежде всего, была подготовлена обучающая и тестовые коллекции обзорных рефератов. Реализована эффективная система доступа к поисковому индексу.
Базовой гипотезой, требующей проверки, являлась требование учета структуры новостных документов типа «перевернутая пирамида», когда начало текста новости содержит описание текущего события, а вторая половина текста новости может содержать отсылки к ранее опубликованным документам.
Помимо учета факторов по базовой гипотезе, при работе над темой для улучшения показателей критериев качества (ROUGE-1, ROUGE-2, полноты по предложениям и введенной взвешенной меры) рассматривались также следующие факторы: (а) предложена модификация метода MMR оценки предложений для реферата; (б) различные способы расширения запроса, в том числе путем модификации запроса на основе анализа выдачи, (в) учета распределения сюжетов по временной шкале.
Получено значимое улучшение показателей качества по сравнению с отправной точкой. Более важным является получение интересного результата, что наибольший эффект дала предложенная методика формирования запроса.