![]() |
ИСТИНА |
Войти в систему Регистрация |
ИПМех РАН |
||
Программа предназначена для формирования сводной базы данных подаваемых ей словников (списка заголовочных единиц) лингвографических изданий. Программа предобрабатывает текст, решая наиболее частотные проблемы, связанные с дефектами в распознавании символов с цифровых изображений (предположительно, фото или сканов лингвографических изданий), приводит к единому виду все морфемы и аффиксоиды, готовит информацию по количеству омонимов в каждом из поданных словников, а также интеллектуально объединяет такие виды тождественных лингвистических единиц потенциального сводного словаря, как варианты и формы слов. Дополнительно происходит обработка сверхсловных сущностей (единиц, содержащих пробел), они появляются в колонке related всех слов знаменательных частей речи, из которых состоят данные пробельные единицы. В результате своей работы программа возвращает файл формата таблицы Microsoft Excel (.xlsx) со сводной базой объединённых списков лингвистических единиц. Программа может применяться в исследовательских целях, а также в прикладных задачах создания сводных лингвографических или информационных изданий, где требуется интеллектуальное объединение заголовочных единиц. Функциональные возможности программы: получение краткой информации о содержании одного списка лингвистических сущностей; распознавание вариантов и неначальных форм среди единиц поданных списков; предобработка подаваемых списков единиц; объединение заголовочных лингвистических единиц в их основном и неосновном виде; формирование сводной базы данных единиц с указанием их количества и вида представления в каждом поданном словнике; загрузка полученного сводного издания в формате xlsx.