Математическое и программное обеспечение перспективных систем обработки символьной информацииНИР

Mathematical methods and software for advanced symbolic information processing systems

Соисполнители НИР

МГУ имени М.В. Ломоносова Координатор

Источник финансирования НИР

госбюджет, раздел 0110 (для тем по госзаданию)

Этапы НИР

# Сроки Название
1 1 января 2016 г.-31 декабря 2016 г. Математическое и программное обеспечение перспективных систем обработки символьной информации
Результаты этапа: В рамках основных направлений и плана исследований по разработке перспективных систем обработки символьной информации в 2016 году получены следующие основные результаты: 1. В направлении "Исследование связи L-графов и классов формальных языков по Хомскому" — показано, что бесконтекстные и регулярные L-графы являются новыми характеризациями классов контекстно-свободных и регулярных языков по классификации Хомского и удобными формализмами для задания синтаксиса языков программирования. 2. В направлении "Исследование и разработка методов и алгоритмов построения дистрибутивного тезауруса русского языка" — разработан и представлен дистрибутивный тезаурус русского языка объемом 932 896 словарных статей. 3. В направлении "Разработка специальных операторов в целях формализации постановки задач реконструкции слов над бинарным алфавитом" — предложен ряд формализмов и операторов, позволивших корректно сформулировать задачу реконструкции без запретов по исходному мультимножеству слов над конечным алфавитом. 4. В направлении "Исследование алгоритмической неразрешимости отдельных задач компьютерной алгебры" — показана алгоритмическая неразрешимость задачи проверки существования бесконечно дифференцируемых решений для подкласса дифференциальных уравнений в частных производных, а также предложены алгоритмы решения новых задач компьютерной алгебры. Все полученные результаты соответствуют плану исследований на 2016 год и ожидаемым результатам, заявленным в плане работ по НИР.
2 1 января 2017 г.-31 декабря 2017 г. Математическое и программное обеспечение перспективных систем обработки символьной информации
Результаты этапа: Изучен класс линейных дифференциальных систем с выделенными неизвестными, для таких систем введено новое понятие сателлитных неизвестных, построен алгоритм распознавания сателлитных неизвестных для нормальных дифференциальных систем; разработаны и реализованы методы и программные средства автоматического построения предметных указателей для русскоязычных научно-технических документов на основе ранее предложенного языка шаблонов, а также методы машинного обучения для системы автоматизированного обнаружения семантических связей слов в текстах на русском и английском языках; для ограниченных L-графов и их подклассов построены алгоритмы распознавания пустоты задаваемого L-графом языка, распознавания бесконечности задаваемого L-графом языка, проверки равенства задаваемых L-графами языков и др.; разработан метод построения вершин и дуг мультиорграфа де Брейна по исходному множеству подслов фиксированной длины для решения задачи реконструкции (на базе теоретико-множественной формальной постановки задачи реконструкции, полученной на предыдущем (2016 г.) этапе, доказаны лемма и теорема о полной реконструкции.
3 1 января 2018 г.-31 декабря 2018 г. Математическое и программное обеспечение перспективных систем обработки символьной информации
Результаты этапа: Для изученного ранее класса линейных дифференциальных систем с выделенными неизвестными представлен алгоритм распознавания линейно сателлитных неизвестных; реализация алгоритма выполнена в виде пакета Satellite для системы компьютерной алгебры Maple. Разработаны методы и программные средства построения синтаксической модели (базы статистики синтаксических связей слов) по корпусу русскоязычных текстов, а также метод морфемной сегментации слов русского языка на основе рекуррентных нейронных сетей, данный метод применен для улучшения дистрибутивного тезауруса русского языка. Предложен алгоритм преобразования КС-грамматики в L-граф, на основе которого реализован метод нисходящего синтаксического анализа. Разработана специальная алгебра для символьного умножения матриц в целях решения задачи реконструкции слов без запретов, позволяющая получить все эйлеровы пути в данном мультиорграфе и содержащая оператор "коллапса" в операции символьного умножения в целях получения эйлеровых путей. В развитие данных результатов получена оценка числа возможных реконструкций при использовании подслов, полученных окном с различными значениями параметра сдвига. Выполнена прототипная реализация алгоритмов выбора стратегии мультиагентной системы.
4 1 января 2019 г.-31 декабря 2019 г. Математическое и программное обеспечение перспективных систем обработки символьной информации
Результаты этапа: Предложен метод восходящего синтаксического анализа на основе ранее построенной теории L-графов и способ его реализации с помощью объектно-ориентированного языка C++; кроме того, предложена реализация L-графов на языке C++, идея которой оказалась полезной и при решении других задачах с графовым подходом. Скорректирована и протестирована новая версия транслятора лексико-синтаксических шаблонов; набор шаблонов был применен для экспериментального исследования метода построения глоссариев, основанного на формальных правилах; разработан метод морфемного разбора слов русского языка, необходимый для выявления вариантов терминов. Созданы новые методы построения векторных представлений для текстовых вхождений многозначных слов, основанные на генерации лексических подстановок, позволившие улучшить качество кластеризации вхождений слов по значению для английского и русского языков, а также новые комбинированные методы выявления семантического фрейма для глаголов. Предложены универсальные методы выявления хронологического порядка возникновения слов: метод словообразования,метод этимологических словарей, метод гипонимов-гиперонимов; первый метод реализован и показывает хорошие результаты на представительной тестовой выборке. Разработаны новые методы автоматического реферирования текстов с учетом семантических связей слов. Дана постановка задачи реконструкции слов по мультимножеству подслов в гипотезе сдвига один при наличии запретов (под запретами понимается множество подслов, которые не могут появляться в реконструированном слове). Рассмотрены частные случаи задачи реконструкции с запретами, допускающие простые решения; показано, что в ряде случаев задача реконструкции с запретами может быть сведена к уже решенной задаче реконструкции без запретов.
5 1 января 2020 г.-31 декабря 2020 г. Математическое и программное обеспечение перспективных систем обработки символьной информации
Результаты этапа: Алгоритмы эквивалентных преобразований L-графов, позволяющие оптимизировать их количественные характеристики (число вершин, дуг, скобочных пометок и др.) Методы верификации программ на языке Питон. Области практического применения: описание и реализация языков общения человека с машиной, автоматизированное обучение языку Питон. Методы и программные инструменты снятия морфологической омонимии для русского языка. Программные средства извлечения терминологической информации из текстов на русском языке, включая дефиниции терминов и терминологические связи. Данные методы и программные средства важны для качественного решения задач анализа тональности, определения тематики и реферирования текстов, а также для цифровизации словарей, справочников, тезаурусов. Выделение частных случаев, в которых возможно снижение трудоемкости решения задачи реконструкции слов, по сравнению с решением этой задачи на основе прямого перечисления эйлеровых путей или циклов. Решение в частных случаях, основанное на специальной процедуре редукции мультиорграфа де Брейна. Результаты имеют практическую значимость для биоинформатики, геномики, бизнес-информатики и прикладной криптографии.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".