Методы структурирования трудноформализуемых предметных областей на основе автоматизированного формирования больших графов знаний и онтологий по разнородным потокам текстовых данных - НИР | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Руководитель НИР: Добров Б.В.
Ответственный исполнитель: Лукашевич Н.В.
Участники НИР: Артемова Е.Л., Архипенко К.В., Балдин С.М., Батура Т.В., Болдырев И.А., Браславский П.И., Быстрицкий Д.К., Быстрицкий Н.Д., Волков Е.В., Герасимова А.А., Гращенков П.В., Григорьев Д.А., Дробот В.В., Иванов В.В., Ионова Н.Р., Кирилин Е.М., Ковалев Г.П., Коннов С.И., Копылов К.Е., Кремнева М.Д., Кремнева М.Д., Лютикова Е.А., Майоров В.Д., Макаров-Землянский Н.В., Мячина А.В., Нилов Д.К., Паско Л.И., Подшивалов Д.Д., Пушкарев С.В., Рожков И.С., Рубцова Ю.В., Сидоров А.В., Скворцов Н.А., Смирнов В.А., Студеникина К.А., Тихомиров М.М., Тутубалина Е.В., Чернышев Д.И., Чухарев Ф.С., Швядас В.К., Шелманов А.О., Штернов С.В., Ярошенко П.В.
Подразделение: 4.04.Лаборатория анализа информационных ресурсов
Срок исполнения: 1 января 2020 г. - 31 декабря 2027 г.
Номер договора (контракта, соглашения): 05
Номер ЦИТИС: АААА-А20-120121690111-5
Тип: Фундаментальная
Приоритетное направление научных исследований: Фундаментальные проблемы построения систем информатизации, методология, технология и безопасность крупных информационных систем
Приоритеты и перспективы НТР Российской Федерации согласно Стратегии НТР РФ: переход к передовым цифровым, интеллектуальным технологиям
ПН России: Информационно-телекоммуникационные системы
Направление технологического прорыва России: Стратегические информационные технологии
Критическая технология России: Технологии информационных, управляющих, навигационных систем
Рубрики ГРНТИ:
- 20.19.17 Предметизация и индексирование
- 20.19.19 Аннотирование и реферирование
- 20.19.27 Автоматизация знаковой обработки текста
- 20.23.19 Процессы информационного поиска
- 20.23.21 Информационно-поисковые системы. Банки данных
- 20.23.25 Информационные системы с базами знаний
- 20.51.17 Информационные потребности и запросы
- 20.53.19 Средства обработки и поиска информации
- 28.23.13 Инженерия знаний. Представление знаний
- 28.23.39 Интеллектуальные базы знаний
Классификатор OECD: Компьютерные и информационные науки
Ключевые слова: большие данные, обработка естественного языка, графы знаний, глубокое обучение, онтологии, представление знаний, текстовые данные, информационно-аналитические системы, лингвистические онтологии, предобученные языковые модели, большие языковые модели, нейронные сети
bigdata, information-analytical system, text data, knowledge graph, linguistic ontology, knowledge representation, pretrained language models, natural language processing
Описание:
Фундаментальные исследования в области методов поддержки извлечения знаний предметной области из текстовых данных большого размера, структурирования извлеченной информации в больших графах знаний и связанных энциклопедических ресурсах, а также использования накопленных знаний для анализа разнородных информационных потоков средствами информационно-аналитических систем. В рамках НИР рассматривается фундаментальные проблемы организации знаний - извлечение, структурирование, упорядочивание и использование - в сложных предметных областях, где подавляющая часть знания распределена в большом количестве разнородных текстов. Одной из востребованных форм представления содержания сложных предметных областей являются графы знаний, которые интегрируют онтологические ресурсы с развитым набором отношений между понятиями и множество именованных сущностей разных типов (конкретных объектов/субъектов, явлений окружающего мира), а также сложные элементы знаний (многокомпонентные фреймы, текстовые фрагменты, медиа-данные и т.д.). Графы знаний используются для формирования развернутых ответов на запросы пользователей, а также как источник знаний о предметной области для улучшения качества работы других методов обработки текстовых данных. Другой формой представления знаний в предметных областях являются энциклопедические ресурсы, содержащие описания всех значимых сущностей, фактов, ситуаций и процессов. Актуальной является задача автоматизированного формирования больших графов знаний и связанных с ними энциклопедических ресурсов, включая формирование больших онтологий с развитой системой отношений, интеграции в графах знаний большой номенклатурой типов именованных сущностей, текстовых фрагментов и сложных структурированных элементов знания, формирования и сопровождения большого количества связанных энциклопедических статей. Целью работы является разработка методов автоматизированного формирования и сопровождения графов знаний большого размера, а также связанных энциклопедических ресурсов, с использованием методов глубокого обучения на основе содержательной обработки больших массивов текстов, и на основе ранее созданных больших онтологических ресурсов. А также исследование методов использования больших графов знаний для поддержки решения информационно-аналитических задач в реальных социально-экономических и научно-технических предметных областях. Новизна исследования заключается в сочетании мощных методов глубокого обучения с использованием больших предобученных языковых моделей и разработанных ранее методов автоматизированного создания и использования больших лингвистических онтологий.
Abstract:
Fundamental research in the field of methods for supporting the extraction of domain knowledge from large text data, structuring the extracted information in large knowledge graphs and related encyclopedic resources, as well as using the accumulated knowledge to analyze heterogeneous information flows using information and analytical systems. The research examines the fundamental problems of knowledge organization - extraction, structuring, ordering and use - in complex subject areas, where the vast majority of knowledge is distributed in a large number of heterogeneous texts. One of the popular forms of representing the content of complex subject areas are knowledge graphs, which integrate ontological resources with a developed set of relationships between concepts and a variety of named entities of different types (specific objects/subjects, phenomena of the surrounding world), as well as complex elements of knowledge (multicomponent frames, text fragments, media data, etc.). Knowledge graphs are used to generate detailed responses to user queries, as well as as a source of domain knowledge to improve the quality of other text data processing methods. Another form of knowledge representation in subject areas is encyclopedic resources containing descriptions of all significant entities, facts, situations and processes. An urgent task is the automated formation of large knowledge graphs and related encyclopedic resources, including the formation of large ontologies with a developed system of relationships, integration in knowledge graphs of a large range of types of named entities, text fragments and complex structured elements of knowledge, the formation and maintenance of a large number of related encyclopedic articles. The aim of the work is to develop methods for the automated formation and maintenance of large-size knowledge graphs, as well as related encyclopedic resources, using deep learning methods based on meaningful processing of large arrays of texts, and based on previously created large ontological resources. As well as the study of methods for using large knowledge graphs to support the solution of information and analytical tasks in real socio-economic, scientific and technical subject areas. The novelty of the research lies in the combination of powerful deep learning methods using large pre-trained language models and previously developed methods for the automated creation and use of large linguistic ontologies.
Планируемые результаты:
По теме предполагается получение следующих основных результатов: - разработка подходов и методов для автоматизированного формирования больших графов знаний, включая методы машинного обучения извлечения большой номенклатуры типов сущностей, в том числе связей между ними, поддержка процедуры связывания разных упоминаний одних и тех же сущностей; - разработка новых адаптированных больших нейросетевых языковых моделей на основе подхода RuAdapt, вычислительно-эффективных и устойчивых для обработки текстов на русском языке; - разработка методов использования больших нейросетевых языковых моделей в информационно-аналитических системах для решения задач формирования обзорных рефератов - разработка походов и методов автоматизированного формирования больших «корпоративных энциклопедий» для различных предметных областей, в том числе методов абстрактивного реферирования для автоматического формирования, оценки и корректировки структурированных с использованием лингвистических онтологий аналитических статей. Практическая значимость ожидаемых результатов заключается в создании новых модулей технологии создания информационно-аналитических систем корпоративного уровня (для российских государственных ведомств и больших корпораций) на основе обработки потоков текстовой информации, .больших графов знаний и больших «корпоративных энциклопедий».
Научный задел:
(1) Разработана модель большой лингвистической онтологии РуТез. По методологии РуТез создано несколько больших лингвистических онтологий. На основе РуТез создан тезаурус русского языка в соответствии с концепцией WordNet (RuWordNet). (2) Разработаны алгоритмы автоматизированной лингвистической обработки текстов на основе модели тематического представления содержания текста, включая: (а) автоматическое выявление терминологии для формирования новой онтологии или пополнения существующей; (б) выявление объектов и событий; (в) автоматическое рубрицирование; (г) автоматическое аннотирование; (д) определение тональности текстов. (3) Разработаны развитые методы извлечения информации на основе методов машинного обучения: выделения именованных сущностей, связей между ними, в том числе тональных, определение общей тональности текста, методы абстрактивного реферирования. (4) Разработана технология RuAdapt адаптирования больших нейросетевых языковых моделей для более устойчивого и вычислительно-эффективного решения задач обработки потоков текстов на русском языке. (5) Разработан программно-аппаратный стенд, реализующий основные функции информационно-аналитической системы для обработки, накопления и анализа больших потоков новостной информации. (6) На основе описанных методов были выполнены работы по разработке онтологических ресурсов и тематических рубрикаторов, информационно-аналитических систем в интересах Центрального банка РФ (2011, 2014 гг.), НП «Гидроэнергетика России» (ОАО «Русгидро», 2013-2015 гг.), других государственных заказчиков. В 2020-2025 гг. по теме опубликовано 88 научных работ. За 2023-2025 гг. опубликовано 56 работ, из них Q1 2, WoS 9, Scopus 33.
Добавил в систему: Добров Борис Викторович

Источник финансирования НИР

госбюджет, раздел 0110 (для тем по госзаданию)

Этапы НИР

#	Сроки	Название
1	1 января 2020 г.-31 декабря 2020 г.	Разработка методов автоматического пополнения больших лингвистических онтологий таксономическими отношениями, методов извлечения редких типов именованных сущностей
Результаты этапа: В 2020 году были получены следующие результаты. 1) В сотрудничестве с коллегами из Сколтеха было организовано и проведено научное соревнование по методам автоматического пополнения таксономических отношений больших лингвистических онтологий. Основой соревнования являлось сформированное обучающий и тестовый наборы данных. Участники тестирования должны были дополнить существующую таксономию RuWordNet новыми словами: для каждого нового слова их системы должны предоставлять ранжированный список возможных гиперонимов, т.е. ближайших родовых слов. По сравнению с предыдущими заданиями для других языков, данное тестирование имеет более реалистичную постановку задания: новые слова предоставлены без толкований. Вместо этого был предоставлен текстовый корпус, в котором встречаются эти новые слова. Для проведения тестирования был создан новый набор данных на основе неопубликованных данных тезауруса RuWordNet. Задача тестирования состоит из двух подзадач: «существительные» и «глаголы». В задании приняли участие 16 мсследовательских групп, показавших высокие результаты, более половины из них превзошли базовый подход, рассчитанный организаторами тестирования. 2) Проведено исследование моделей и методов пополнения больших лингвистических онтологий с использованием методов машинного обучения. Исследованы подходы для извлечения отношений гипоним-гипероним (класс-подкласс), которые являются основной большинства онтологий и графов знаний. Существенной является задача автоматического пополнения онтологий на основе больших текстовых корпусов. В рамках тестирования RUSSE-2020 был реализован метод для пополнения существующей таксономии в тезаурусе RuWordNet. Метод включал использование следующих признаков для пополнения таксономии: -- Дистрибутивные векторные модели (word2vec, PMI+SVD), -- Специальные типы шаблонов, -- Использование структуры существующего тезауруса, -- Нейросетевая архитектура transformer в виде модели BERT для решения задачи классификации. Результатом алгоритма является ранжированный список из 10 кандидатов гиперонимов. Оценка качества проводилась на основе метрик MAP и MRR. В результате описанный подход получил 4 место в соревновании по предсказанию гиперонимов среди существительных. Особенностью подхода является то, что среди первых 5 решений участников, только в данном решении не использовались сторонние словари и внешние векторные представления, обученные на других, более крупных, наборах данных. Это важно по той причине, что приближает к реальной ситуации, когда необходимо расширить существующий тезаурус на новый набор данных. Представленный подход является новым и уникальным для задачи предсказания гиперонимии для расширения тезауруса. То, что данный подход получил высокие результаты, не используя внешние словари и векторные представления по другим наборам данных, также является преимуществом данного подхода. 3) Разработана и опубликована обновленная версия лингвистической онтологии RuWordNet. В рамках сотрудничества с сообществом Global WordNet Association планируется публикация версии RuWordNet в формате Open Multilingual WordNet. Объем новой версии составляет более 135 тысяч слов и выражений. 4) Исследованы возможности больших предобученных моделей для решения актуальных задач при построении информационно-аналитических систем – извлечение именованных сущностей «редких» типов. Исследованы подходы к улучшению качества извлечения именованных сущностей в конкретной предметной области за счет автоматической доразметки текстовой коллекции и обучения специализированной версии юольшой языковой модели BERT для заданной предметной области. Для экспериментов был использован корпус новостных статей и комментариев в области компьютерной безопасности Sec_col. Для этого модель RuBERT была дообучена на текстовой коллекции новостей и комментариев в области компьютерной безопасности (RuCyBERT). Замена исходного RuBERT на дообученный RuCyBERT приводит к значительному росту качества извлечения именованных сущностей. Кроме того, были исследованы возможности пополнения обучающей коллекции за счет использования списка дескрипторов (слов, стоящих перед именем, например: вирус PETYA), соответствующих каждому типу именованных сущностей. Основная идея метода состоит в том, что неразмеченные предложения автоматически модифицируются, путем добавления именованных сущностей рядом или вместо дескриптора. Таким образом можно генерировать большое количество предложений с псевдо разметкой. Подобное можно сделать и уже с размеченными данными, добавляя в них новые сущности. В экспериментах было показано, что использование модели BERT, настроенной на коллекции текстов заданной предметной области и предварительно обученной на сочетании общего набора данных и дополнительно порожденных данных, обеспечивает наилучшие результаты распознавания именованных сущностей. Мы также изучили вычислительную производительность модели BERT в так называемом режиме смешанной точности. Был обучен новый вариант модели BERT для русского языка: RuNewsBERT. Обучение было выполнено следующим образом: (а) Инициализация весов от RuBERT (Burtsev et al., 2018), (б) Текстовая коллекция: 8 миллионов новостей, собранных с различных русскоязычных источников, (в) Обучение проводилось на системе DGX-2 на 16 видеокартах V100, (г) Обучение происходило только на задаче MLM, в каждом документе обрабатывались первые 512 токенов, (д) Для обучения потребовались 4 миллиона итераций, что заняло примерно один месяц. 5) Проведены исследования методов определения тональности с использованием нейросетевых методов с механизмом «внимания». Создана и опубликована новая версия словаря оценочной лексики RuSentiFrames. Тексты могут передавать несколько типов взаимосвязанной информации, касающейся мнений и отношений. Такая информация включает отношение автора к упомянутым сущностям, отношение сущностей друг к другу, положительное и отрицательное влияние на сущности в описанных ситуациях. В лексиконt RuSentiFrames для русского языка предикатные слова и выражения собраны и связаны с так называемыми оценочными фреймами, передающими несколько типов предполагаемой информации об установках и эффектах. Мы применили созданные фреймы для извлечения оценочных отношений между именованными сущностями из большой коллекции новостей. Исследованы возможности недавно появившейся архитектуры BERT по сравнению с традиционными подходами на основе нейронных сетей (CNN, LSTM, BiLSTM) на существующих размеченных наборах данных для анализа тональности на русском языке. Сравнивались два варианта архитектуры BERT, дообученной на русском языке: (а) обученный на новостях и Википедии и (б) обученный на комментариях, постах в социальных сетях (разговорный вариант). Было показано, что для всех рассмотренных задач тональности в этом исследовании разговорный вариант русского BERT работает лучше. Наилучшие результаты были достигнуты с помощью модели BERT-NLI, которая рассматривает задачи классификации тональности как задачу логического вывода на естественном языке. По одному из наборов данных эта модель практически достигает человеческого уровня. Рассмотрена задача извлечения оценочных отношений между именованными сущностями, упомянутыми в тексте. Предлагается подход на основе нейросетевых кодировщиков контекста, основанных на внимании. Для этой задачи был адаптированы кодировщики контекста двух типов: (а) функционально-ориентированные; (б) основанные на самовнимании. В исследовании использовался корпус русскоязычных аналитических текстов RuSentRel и автоматически построенный новостной датасет RuAttitude для обогащения обучающей выборки. Задача выделения отношения рассматривалась как двухклассовая (положительный, отрицательный) и трехклассовая (положительный, отрицательный, нейтральный) для всего документа. Эксперименты с корпусом RuSentRel показали, что трехклассовые модели классификации, которые используют корпус RuAttitude для обучения, приводят к увеличению на 10% и дополнительным 3% на F1, когда архитектуры моделей включают механизм внимания. Также были проанализированы распределения весов внимания в зависимости от типа контекста.
2	1 января 2021 г.-31 декабря 2021 г.	Разработка методов автоматизированного формирования больших лингвистических предметной области, методов извлечения сложных типов именованных сущностей, исследование методов автоматизированного формирования графов знаний
Результаты этапа: (1) По направлению выявления сложных текстовых образов именованных сущностей – вложенных, разрывных, неполных - сформирован NEREL - новый датасет на русском языке с размеченными именованными сущностями и отношениями между ними. Особенностью NEREL является разметка вложенных именованных сущностей и их отношений. Отношения между сущностями размечаются в рамках связного текста и не ограничиваются уровнем предложения. (2) По направлению разработки методов автоматического пополнения больших лингвистических онтологий (с небольшим количеством фиксированных отношений) предметной области - получен результат, что комбинации векторных представлений, обученных на общей предметной области, рассчитанные на больших текстовых коллекциях из сети Интернет, оказывают существенное влияние на качество пополнения таксономий, таких как WordNet, RuWordNet, Онтологии Естественных Наук и Технологий (ОЕНТ). (3) По направлению разработки методов глубокого машинного обучения для интегрирования большой номенклатуры типов именованных сущностей с понятиями онтологии - реализована система предсказания гиперонимов для неизвестных заранее именованных сущностей и веб-сервис для работы с ней. (4) Велись исследования методов наполнения «текстовых вершин» графа знаний, когда элемент графа знаний представляет собой фрагмент текста, содержащий неструктурированное знание по заданной теме. Исследовались методы абстрактного аннотирования извлечения значимых текстовых фрагментов с использованием современных нейросетевых подходов. (5) Были рассмотрены методы анализа текстовых материалов вида «резюме и вакансии», учебные курсы. Для онтологии ОЕНТ получен результат, что отношения «пререквизит» могут автоматически выводиться по иерархии существующих отношений лингвистических онтологий типа РуТез, возможно, с добавлением небольшого количества отношений вручную. (6) Проводились исследования по интеграции информационных методов в биологические исследования. Практическая значимость полученных результатов заключается в снижении трудоемкости для формирования больших онтологических ресурсов, создании новых инструментов для информационно-аналитических систем, в том числе для новых предметных областей.
3	1 января 2022 г.-31 декабря 2022 г.	Разработка методов автоматизированного формирования больших графов знаний предметной области
Результаты этапа: В течение 2022 года при выполнении 3го этапа «Разработка методов автоматизированного формирования больших лингвистических онтологий предметной области, методов извлечения сложных типов именованных сущностей, исследование методов автоматизированного формирования графов знаний» получены следующие результаты: 1) По направлению исследования методов автоматического извлечения неизвестных отношений показано, что применение выделяемых с использованием нейросетевых методов именованных сущностей и отношений с ними позволяет ввести метрики фактологической достоверности оценки качества экстрактивных и абстрактивных аннотаций. Разработан новый метод построения псевдо-аннотаций на основе кластеров – ClusterVote. Метод апробирован для обучения русскоязычных предобученных генеративных моделей общего назначения: mBART, ruT5. С помощью метода собрана самая большая коллекция для аннотирования русскоязычных новостей – Telegram News*CV(RU). 2) По направлению разработки методов автоматизированного формирования больших онтологий предметной области с развитым набором отношений были проведены эксперименты по извлечению отношений (49 типов) на датасете NEREL. Особенностью датасета является то, что он размечен вложенными именованными сущностями, что позволяет увеличивать полноту извлечения отношений из текстов. Была проведена коррекция входного формата данных, после чего качество извлечения отношений внутри предложения с помощью пакета OpenNRE с использованием контекстуализированных эмбеддингов RuBERT, достигло 80.5% F-меры. Для исследования извлечения таксономических отношений из текстовых коллекций в рамках проекта был создан датасет Diachronic wordnets. Был исследован подход на основе мета-эмбеддингов с функцией потерь триплет-лосс, комбинирующий векторные представления слов (word2vec, glove, fasttext) и графовые представления, с помощью которого получены лучшие результаты извлечения гиперонимов для существительных во всех вариантах датасета. 3) По направлению разработки методов связывания различных текстовых вариантов извлеченных именованных сущностей на основе результатов обработки больших текстовых коллекций были проведены эксперименты по связыванию упоминаний именованных сущностей из набора данных NEREL c объектами графа знаний Викиданные. Показано, что наиболее эффективным из рассмотренных способов оценки неопределенности является score-based подход. Для ряда категорий рассматриваемого набора данных, более высокую эффективность показывают методы, основанные на ансамблях моделей. 4) По направлению разработки методов разрешения многозначности текстового выражения именованных сущностей в разных документах был изучен подход, учитывающий априорную многозначность именованных сущностей при связывании сущностей с Викиданными. В результате комбинирования score-based оценки с предложенным методом удалось увеличить точность предсказания правильной ссылки сущности в Викиданных. Практическая значимость результатов заключается в снижении трудоемкости для формирования больших графов знаний в части подключения именованных сущностей, а также текстовых объектов в виде аннотаций.
4	1 января 2023 г.-31 декабря 2023 г.	Разработка методов автоматизированного сопровождения больших графов знаний и больших онтологий по потоку разнородных текстов предметной области
Результаты этапа: При выполнении НИР в 2023 году в ходе этапа «Разработка методов автоматизированного сопровождения больших графов знаний и больших онтологий по потоку разнородных текстов предметной области» получены следующие результаты: - исследованы новые методы установления таксономических отношений между существующими концептами лингвистических онтологий и терминоподобными сущностями; - сформированы, опубликованы и исследованы, в том числе в результате участия в организации научных соревнований, новые наборы данных для выявления сложных отношений в специальных предметных областях; - исследованы задачи выявления отношений в сложных случаях вложенных иенованных сущностей; - рассматривались задачи абстрактивного аннотирования: для задачи абстрактивного аннотирования новостных кластеров предложен новый метод создания коллекций для обучения нейросетевых методов аннотирования, предназначенный моделировать особенности задачи путем учета информации в связанных документах; - исследованы предварительно обученных моделей абстрактивного реферирования в условиях ограниченных ресурсов; - выполнены исследования по воспроизведению лингвистических характеристиках текстов при применении современных методов автоматической обработки. По теме опубликовано 13 статей (1 Q1, 5 Wos+Scopus, 1 WoS, 5 Scopus, 1 РИНЦ)
5	1 января 2024 г.-31 декабря 2024 г.	Разработка методов автоматизированного формирования графов знаний в форме корпоративных энциклопедий
Результаты этапа: При выполнении НИР в 2024 году в ходе этапа «Разработка методов автоматизированного формирования графов знаний в форме корпоративных энциклопедий» получены следующие результаты: - Для исследования вопросов сочетания в ресурсах энциклопедической информации и онтологической структуры были проанализированы подходы к структуризации знаний в онлайн энциклопедиях: Большой Российской Энциклопедии (БРЭ), Википедии, «энциклопедии данных» Wikidata (Викиданные), проекте «Ковчег знаний» МГУ имени М.В. Ломоносова; - В рамках исследований по направлению методов ведения энциклопедий в заданной предметной области были исследованы возможности больших языковых моделей (далее также – LLM, от англ. Large Lanhuage Models) порождать заготовки энциклопедических статей (энциклопедических справок) по материалам научных публикаций; - Произведено исследование эффективности различных схем оптимизации словаря и настройки адаптеров для адаптации больших нейросетевых языковых моделей на русский язык.; - Исследованы методы улучшения решения задачи абстрактивного реферирования (англ. abstractive summarization) c применением больших языковых моделей, в том числе инструктивных. Предложена модель Pegasus-SP, которая объединяет псевдосуммирование с перестановкой предложений. Новая модель превосходит существующие аналоги в условиях ограниченных ресурсов и демонстрирует лучшую адаптивность; - Для пополнения онтологий и графов знаний исследована задача связывания извлеченных сущностей с единицами баз знаний. С этой целью исследовались методы нормализации медицинских понятий, то есть привязывания упоминания в тексте некоторого варианта названия понятий к его нормативному наименованию. Особенностью исследования было то, что понятия могли быть вложенными друг в друга. Исследование было выполнено на новом вручную аннотированном наборе данных аннотаций PubMed; - Исследованы возможности языковой модели FlanT5 по тематической классификации текстов и объяснению принятых решений в виде наиболее значимых слов для классификации; - Исследован интерпретируемый метод классификации текстов - алгоритм построения формул, который конструирует представление текстовой темы в виде логической формулы. Представленный алгоритм показал хорошие результаты при сравнении с современными методами машинного обучения на реальных коллекциях с зашумленной экспертной разметкой; - Проанализированы модели грамматической компетенции, представленные направленными графами. Оценивались их способности к генерации, ограничения и возможности для учета грамматического варьирования и других ограничений больших языковых моделей. По результатам этапа 2024 года опубликовано 19 научных работ, из них 14 индексируются Scopus, 6 Web Of Science.
6	1 января 2025 г.-31 декабря 2025 г.	Исследование методов применения больших нейросетевых языковых моделей для задач автоматизированного формирования графов знаний
Результаты этапа: В рамках Этапа 6 НИР 2025 г. «Исследование методов применения больших нейросетевых языковых моделей для задач автоматизированного формирования графов знаний» получены следующие основные результаты. 1) По направлению «Исследование методов улучшения качества результатов информационного поиска для решения задач RAG (подключения новых знаний) для больших языковых моделей»: - Создан RusBEIR, комплексный бенчмарк, разработанный для оценки моделей информационного поиска на русском языке без предварительного обучения. Он включает 17 наборов данных из различных областей, интегрируя адаптированные, переведенные и вновь созданные наборы данных, что позволяет систематически сравнивать лексические и нейронные модели. Полученные результаты показывают важность предварительной обработки для лексических моделей в морфологически богатых языках и подтверждают, что классические методы типа BM25 является надежным базовым набором данных для поиска полных документов и во многих ситуациях успешно конкурируют с моделями векторного поиска. Нейронные модели, такие как mE5-large и BGE-M3, демонстрируют превосходную производительность на большинстве наборов данных, но сталкиваются с проблемами при поиске длинных документов из-за ограничений по размеру входных данных. - Описаны методы адаптации мультиязычных LLM для обработки русского языка. Представлена комплексная и вычислительно эффективная методология Ruadapt для языковой адаптации LLM с заменой токенизации. Приведено подробное эмпирическое исследование каждого шага адаптации с целью определения оптимальных гиперпараметров, а также ключевых этапов и их влияния на итоговое качество. Модели, код и наборы данных опубликованы в открытом доступе, предлагая научному сообществу проверенную и экономически целесообразную стратегию создания высококачественных языковых моделей. 2) По направлению «Исследование методов автоматического структурирования материалов при формировании аналитических статей»: - Разработаны методы автоматического формирования энциклопедических статей методами абстрактивного реферирования с использованием больших нейросетевых языковых моделей на материалах ресурсов Wikipedia и РуВики; - Проведены исследования для лучшего понимания возможностей LLM в различных задачах базовых методов обработки текстов: синтаксических экспериментов по изучению вариативного согласования на материале созданного участниками НИР Корпуса Вариативного Согласования (КВаС), оценки качества синтаксического анализа к результатам работы синтаксического анализатора на основе больших языковых моделей, исследованы подходы к объяснению поведения BERT в задачах текстовой классификации. - Исследованы методы определения тональности и выражения эмоций, что является важным для извлечения экспертных оценок о перспективности, достоинствах и недостатках рассматриваемых процессов для формирования информационно-аналитических материалов. В частности, описаны доступные для использования русскоязычные ресурсы эмоциональной лексики и представить созданный на их основе новый объединяющий эмоциональный лексикон - RusEmoLex (Russian Emotion Lexicon). Описана методика создания ресурса RusEmoLex на основе доступных русскоязычных источников. 3) По направлению «Исследование методов организации научно-технических знаний»: - В рамках поддержки направления формирования представительных и достоверных коллекций научно-технических данных коллектив НИР участвует в деятельности Национальная платформа «Ковчег знаний МГУ». Трёхуровневая архитектура платформы включает: (1) создание обширного верифицированного русскоязычного корпуса объемом в миллиарды токенов; (2) разработку многоуровневой метаонтологии, предназначенной для описания миллионов сущностей и их семантических отношений; (3) внедрение слоя сервисов, включающего конвейер автоматической обработки текстов и поиска информации, а также образовательные лаборатории. - Исследован потенциал больших языковых моделей для задачи автоматического пополнения таксономий на материале русского языка. Адаптирована методика TaxoLLaMA, которая ранее показала высокую эффективность для английского языка, использовав для этого данные русскоязычного тезауруса RuWordNet.. Эксперименты подтвердили успешную применимость метода к русскоязычным данным и выявили значительное преимущество русскоязычных моделей. - Участники НИР активно участвуют в кооперации с другими научными коллективами по организации научных соревнований по решению задач обработки и анализа научно-технических текстов. Проведение такого рода научных конкурсов является эффективной формой поиска новых методов решения исследовательских задач и быстрого распространения лучших практик. Участники коллектива авторов НИР принимают участие в деятельности международного коллектива по формированию наборов данных (датасетов) BioASQ для поддержки решения задач семантического индексирования биомедицинских данных и автоматического формирования ответов на вопросы по таким данным. Также коллектив авторов НИР принял участие в организации формирования нового бенчмарк ruSciFact для проверки фактов в научных утверждениях на русском языке. - С учетом сложности анализа научно-технических текстов в рамках НИР продолжаются работы по разработке методов улучшения качества решения задач обработки такого рода документов. Предложен многоэтапный подход к автоматическому порождению ключевых слов для русскоязычных научных статей. Метод основан на дообучении трансформеров с использованием псевдоразметки и контрастивного обучения, а также включает фильтрацию порождённых кандидатов. Реализованы две стратегии генерации псевдоразметки и архитектура с биэнкодером для отбора релевантных ключевых слов. Эксперименты на корпусе математики и компьютерных наук демонстрируют превосходство предложенного подхода над классическими и нейросетевыми методами по метрикам F1, ROUGE-1 и BERTScore. Описан опыт участия в конкурсе RuTermEval, посвященном извлечению вложенных терминов. Для извлечения вложенных терминов применялась модель Binder. Получены лучшие результаты распознавания терминов во всех трех направлениях конкурса RuTermEval. Также предложены и исследованы новые методы разрешения многозначности лексики. - Для решения проблемы сложности с формированием представительных коллекций научно-технических текстов, рассматривались методы распознавания речи, как источника информации. Исследовалась задача распознавания незнакомых слов (не входящих в словарный запас), что характерно для специальных предметных областей, особенно научно-технических. Представлен метод повышения качества распознавания речи, содержащей такие термины, основанный на алгоритме автоматического построения так называемых “русских транскрипций” для произвольных английских слов. Также предложен подход для прогнозирования частоты ошибок распознавания слов без необходимости использования эталонных транскрипций. Предложенный метод включает создание разнообразных аудиоданных путем применения различных типов шума, акустических искажений и импульсных характеристик помещения к чистым образцам речи на многих уровнях качества и разборчивости. В отличие от предыдущих работ, извлекается и анализируется полный набор характеристик качества речи, включая оценки отношения сигнал/шум (SNR), современные нейронные метрики качества звука (такие как NISQA) и оценки достоверности моделей автоматического распознавания речи (ASR) для обучения моделей прогнозирования WER. Данная работа позволяет создавать практические приложения, такие как фильтрация аудиовходов на основе качества, что дает системам автоматического распознавания речи возможность оценивать ожидаемую производительность и определять надежность транскрипции без использования эталонных текстовых данных. По результатам Этапа 6 НИР опубликовано 24 научных работ. Из них: Q1 1, WoS 2, Scopus 14, RSCI 4, Ядро РИНЦ 6, РИНЦ 7.
7	1 января 2026 г.-31 декабря 2026 г.	Разработка макета корпоративной базы знаний в виде Вики-ресурса
Результаты этапа: -
8	1 января 2027 г.-31 декабря 2027 г.	Исследование методов формирования аналитических статей на основе поиска информации и графа знаний
Результаты этапа: -
9	1 января 2028 г.-31 декабря 2028 г.	Исследование методов следования культурным и правовым нормам при генерации текстов нейросетевыми моделями
Результаты этапа: -
10	1 января 2029 г.-31 декабря 2029 г.	Оценка качества автоматически сформированных нейронными сетями аналитических статей
Результаты этапа: -

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Methods for structuring illformalize subject domains base on the automated generation of large knowledge graphs and ontologies on heterogeneous streams of text data

Источник финансирования НИР

Этапы НИР

Прикрепленные к НИР результаты