Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы - НИР | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Руководитель НИР: Швядас В.К.
Ответственные исполнители: Антонов А.С., Воеводин В.В., Кирилин Е.М., Лукашевич Н.В., Нилов Д.К.
Участники НИР: Балдин С.М., Богомолов В.Ю., Варенцов А.И., Воеводин В.В., Волков Е.В., Гащук Е.М., Дебольский А.В., Добров Б.В., Дробот В.В., Жуматий С.А., Игнатенко А.П., Качкин Ф.Ю., Кирилин Е.М., Коннов С.И., Копылов К.Е., Лукашевич Н.В., Лыкосов В.Н., Медведев А.И., Молокоедов В.С., Мортиков Е.В., Нилов Д.К., Панин Н.В., Поддъяков И.Д., Подшивалов Д.Д., Полюхов А.А., Попов С.М., Пушкарев С.В., Рубцова Ю.В., Серов В.А., Сидоров И.Ю., Смирнов А.В., Смирнов В.А., Степаненко В.М., Стефанов К.С., Суязова В.И., Тихомиров М.М., Чернышев Д.И., Чернышев Р.В., Чухарев Ф.С., Шайхисламов Д.И., Шоков В.Н., Щепетов М.А., Щербакова Т.А., Яковлев Р.В.
Подразделение: 4.07.Лаборатория информатики
Срок исполнения: 17 марта 2021 г. - 31 декабря 2024 г.
Номер договора (контракта, соглашения): 21-71-30003
Номер ЦИТИС: 121051900173-4
Тип: Прикладная
Приоритетное направление научных исследований: Фундаментальные проблемы высокопроизводительных вычислений, обработки данных и искусственного интеллекта
Приоритеты и перспективы НТР Российской Федерации согласно Стратегии НТР РФ: переход к передовым цифровым, интеллектуальным технологиям
ПН России: Информационно-телекоммуникационные системы
Направление технологического прорыва России: Стратегические информационные технологии
Критическая технология России: Технологии и программное обеспечение распределенных и высокопроизводительных вычислительных систем
Рубрики ГРНТИ:
- 50.05.15 Теория и проблематика программирования для вычислительных сетей
- 50.05.19 Теоретические основы прикладного программного обеспечения
- 50.07.05 Теория вычислительных систем высокой производительности
- 50.41.25 Прикладное программное обеспечение
Ключевые слова: живые системы, микромир, предсказательное моделирование, кодизайн, сверхвысокопроизводительная платформа, сквозные цифровые технологии, искусственный интеллект, суперкомпьютер, земная система
supercomputer, codesign, earth system, predictive modeling, microcosm, end-to-end digital technologies, living systems, high performance platform, artificial intelligence
Описание:
Представленный комплексный проект включает в себя создание, обоснование и применение новых высокопроизводительных алгоритмов решения важных прикладных задач естествен-ного и гуманитарного характера в физике элементарных частиц, задачах искусственного ин-теллекта и автоматической обработки текстов, разработке моделей Земной системы, биоин-форматике, а также разработку архитектуры и принципов построения сверхвысокопроизво-дительной платформы для эффективной поддержки приложений предсказательного модели-рования и искусственного интеллекта, требующих интенсивных вычислений и/или работу с большими объемами данных. Модели, методы и средства высокопроизводительных вычислений. В рамках проекта будет создана уникальная система оценок, позволяющих проводить срав-нительный анализ и расставлять приоритеты при изучении производительности суперком-пьютерных приложений и систем. После этого будут разработаны методы и средства опера-тивного информирования пользователей, администраторов и руководства суперкомпьютеров о качестве выполнения отдельных приложений и вычислительной системы в целом, выводы о котором будут получены с помощью разработанной системы оценок. Физика элементарных частиц. В современной физике элементарных частиц «Стандартная Модель» достаточно хорошо описывает, по крайней мере, сильное, слабое и электромагнитное взаимодействия. Поскольку она основана на квантовой теории поля, а в четырёхмерном пространстве-времени до сих пор не удаётся решать квантовополевые модели точно, теория возмущений остаётся наиболее последовательным подходом в физике элементарных частиц. Предполагается усовершенствовать алгоритмы и соответствующие компьютерные программы, требуемые для проведения вычислений в данной области, адаптировать их для работы с использованием сверхвысокопроизводительных платформ и применить для решения конкретных задач. Искусственный интеллект и автоматическая обработка текстов. В СМИ, сети Интернет, социальных сетях публикуется огромное количество мнений, анализ которых может дать представление о проблемах и вопросах, обсуждаемых с наиболее диаметральных позиций, изучить настроения общества. Анализ больших текстовых данных с использованием методов искусственного интеллекта для выделения значимых факторов и их взаимосвязей в сочетании с традиционными методами социологии, такими как социологические опросы, может дать более детальную картину происходящих в обществе процессов. Задачей исследования является формирование карты дискуссионных вопросов с выявлением антагонистических и поддерживающих отношений между обсуждаемыми субъектами, объектами, явлениями и процессами, основных позиций по данным вопросам, что позволит быстрее выявлять возникающие проблемные точки и конфликты в российском обществе, исследовать модели предсказательного моделирования социальной устойчивости общества. Новизна исследования состоит в применении комплексного подхода к анализу больших текстовых данных, включая большие лингвистические ресурсы (словари оценочной лексики, онтологии), предобученные модели и методы классификации на основе нейронных сетей, методы логического вывода, и методы анализа связного текста. Прежде всего путем внедрения знаний о глобальных взаимосвязях окружающего мира, описанных в больших лингвистических ресурсах, в большие предобученные языковые модели. Суперкомпьютерный кодизайн для моделей Земной системы. Процессы, происходящие в деятельном слое суши и пограничном слое атмосферы, представляют ключевые звенья циклов энергии, воды, углерода и биогенных элементов в Земной системе. Явное численное моделирование многомасштабных и комплексных физических процессов в этих слоях требуется как в частных прикладных задачах, так и для совершенствования систем предсказательного моделирования погоды и климата. Это, в свою очередь, подразумевает развитие математических методов и алгоритмов и использование принципов суперкомпьютерного кодизайна. В проекте будет проведено усовершенствование вихреразрешающей модели пограничного слоя атмосферы и схемы деятельного слоя суши в части воспроизведения процессов, связанных с переносом и преобразованием влаги. Часть математических подходов при этом будет применено впервые в мире. Одной из основных задач является также реализация упомянутых моделей на высокопроизводительных платформах с использованием общей, распределённой памяти и графических ускорителей. Биоинформатика и моделирование живых систем. Выполнение проекта сделает возможным использование компьютерных методов в медицине и фармацевтике на качественно новом уровне. Будет создана единая база ключевых белков/ферментов человека и перечень мутаций, связанных с патологическими состояниями организма, что даст возможность проводить автоматизированную оценку функциональной значимости структурных вариаций в геноме пациента. Будет разработана не имеющая мировых аналогов технология компьютерного дизайна прототипов лекарственных средств, предсказания их возможных побочных действий, что позволит исключить ряд длительных и трудоемких стадий предварительного экспериментального скрининга и существенно ускорить процесс создания селективных лекарственных препаратов.
Abstract:
The presented complex project includes the creation, substantiation and application of new high-performance algorithms for solving important applied problems of a natural and humanitarian nature in elementary particle physics, аrtificial intelligence and natural language processing tasks, development of the Earth System models, bioinformatics problems, as well as the development of architecture and principles for building an ultra-highperformance platform to efficiently support computationally intensive and / or data intensive predictive modeling and artificial intelligence applications. Models, methods and tools of high-performance computing. Within the project a unique assessment system will be created that allows for comparative analysis and prioritization when studying the performance of supercomputer applications and systems. After that, methods and tools will be developed for promptly informing users, administrators and supercomputing managers about the quality of the execution of individual applications and the computing system as a whole, conclusions about which will be obtained using the developed assessment system. Elementary particle physics. In modern elementary particles physics, the "Standard Model" describes quite well, at least, strong, weak and electromagnetic interactions. Since it is based on quantum field theory, and in four-dimensional space-time it is still not possible to solve quantum field models exactly, perturbation theory still remains the most consistent approach in elementary particle physics. It is supposed to improve the algorithms and the corresponding computer programs required to carry out computations in this area, to adapt them to work using ultra-high-performance platforms and apply to solving specific problems. Artificial intelligence and natural language processing. A huge number of opinions are published in the media, the Internet, social networks, the analysis of which can give an idea of the problems and issues discussed from the most diametrical positions, and study the mood of society. Such an analysis, combined with traditional methods of sociology, such as sociological polls, can provide a more detailed picture of the processes taking place in the society. The objective of the study is to form a map of debatable issues with the identification of relations between them, the main positions on these issues, which will make it possible to quickly identify emerging problem points and conflicts in Russian society, and explore models of predictive modeling of social stability of society. The novelty of the research lies in the application of an integrated approach to the analysis of large text data, including large linguistic resources (dictionaries of evaluative vocabulary, ontology), pre-trained models and classification methods based on neural networks, inference methods, and methods for analyzing coherent text. Supercomputer codesign for the Earth System models. The processes occurring in the soil active layer and atmospheric boundary layer represent the key links in the cycles of energy, water, carbon and biogenic elements in the Earth system. Explicit numerical modeling of multiscale and complex physical processes in these layers is required both in particular applied problems and for improving predictive weather and climate modeling systems. This, in turn, implies the development of mathematical methods and algorithms and the use of the principles of supercomputer codesign. The project will improve the Large-eddy simulation model of the atmospheric boundary layer and the land surface scheme in terms of reproducing the processes associated with the transfer and phase transitions of moisture. Some of the mathematical approaches will be applied for the first time. One of the main tasks is also the implementation of the mentioned models on high-performance platforms using shared, distributed memory and GPU. Bioinformatics and modeling of living systems. The implementation of the project will make it possible to use computational methods in medicine and drug design at a qualitatively new level. A unified database of key human proteins/enzymes and a list of substantiated mutations related to pathological conditions of the patients will be created, which will make it possible to conduct an automated assessment of the functional significance of structural variations in the patient's genome. The technology of a computational design of drug prototypes, predicting their possible side effects, which has no analogues, will be developed, what will make possible to eliminate a number of lengthy and laborious stages of preliminary experimental screening and significantly accelerate the process of creating selective drugs.
Планируемые результаты:
Модели, методы и средства высокопроизводительных вычислений. Обзор и анализ возможностей современных сквозных цифровых технологий для решения вычислительно сложных задач. Разработка программной инфраструктуры сверхвысокопроизводительной платформы предсказательного моделирования, включая архитектуру, комплект подсистем обеспечения эффективности платформы, правила построения платформы с учетом целевых функций базового вычислительного центра, в рамках которого разворачивается платформа. Установка сверхвысокопроизводительной платформы предсказательного моделирования на российских суперкомпьютерных центрах МГУ имени М.В.Ломоносова и в двух СКЦ из списка Топ50 самых мощных суперкомпьютеров России. Физика элементарных частиц. Оптимизация алгоритмов, ориентированных на применение сверхпроизводительных вычислительных платформ, для вычисления многопетлевых фейнмановских интегралов. Применение этих алгоритмов в современной физике элементарных частиц. Предполагается дальнейшее развитие и применение программы FIRE, позволяющей осуществлять сведение любого многопетлевого фейнмановского интеграла заданного семейства к так называемых мастер-интегралам. Предполагается аналитически вычислить двухпетлевые смешанные КХД-слабые поправки в рождение бозона Хиггса в рамках глюонного синтеза, для диаграмм, содержащих петлю тяжелых кварков. Предполагается аналитически вычислить фейнмановские интегралы, описывающих рассеяние электронов и позитронов, для диаграмм с безмассовым порогом в t-канале. Искусственный интеллект и автоматическая обработка текстов. Основным результатом исследований в задачах автоматической обработки текстов является составление так называемой дискуссионной карты (графа знаний оценочных отношений и типовой аргументации), которая показывает сущности, обсуждаемые с наиболее диаметральных позиций, отношения между ними, а также связанные с ними позиции (аргументацию). Построение такой карты для разных источников, разных регионов и разных периодов времени, сопоставление ее с результатами социологических опросов и реальными конфликтами тех же и последующих периодов времени позволит исследовать модели предсказательного моделирования социальной устойчивости общества. Суперкомпьютерный кодизайн для моделей Земной системы. Будет создана и верифицирована новая версия модели деятельного слоя суши ИВМ РАН-МГУ, в которой будет учтен горизонтальный перенос почвенной жидкой и газообразной влаги. В этом отношении модель будет превосходить наиболее известные схемы деятельного слоя систем прогноза погоды и климата. Кроме того, модель будет реализована на гибридных высокопроизводительных платформах (MPI+OpenMP, MPI+OpenACC/CUDA), что также является практически исключением среди ведущих аналогичных моделей. Усовершенствованная модель позволит более точно воспроизводить водный режим суши, что будет впоследствии способствовать повышению качества предсказательного моделирования погоды и гидрологических процессов. Будет разработана вихреразрешающая модель атмосферного пограничного слоя, включающая блок микрофизики для описания фазовых переходов воды, перенос радиации и возможность воспроизведения процессов переноса тепла и влаги в верхнем слое почвы. Вычислительная технология будет ориентирована на архитектуру современных и перспективных высокопроизводительных платформ и будет позволять проводить расчеты на гетерогенных системах, включающих центральные и графические процессоры. Численные исследования динамики атмосферного пограничного слоя на основе вихреразрешающей модели позволят рассмотреть задачи об уточнении турбулентных замыканий, параметризаций облачности и микрофизики в предсказательных моделях погоды и климата. Биоинформатика и моделирование живых систем Выполнение проекта сделает возможным использование компьютерных методов в медицине и фармацевтике на качественно новом уровне. Будет создана единая база ключевых белков/ферментов человека и обоснованный перечень их мутаций, связанных с патологическими состояниями организма, что станет основой формирования информационной службы для персонализированной медицины и автоматизированной оценки функциональной значимости структурных вариаций в геноме пациента. Будет разработана не имеющая мировых аналогов технология компьютерного дизайна прототипов лекарственных средств, предсказания их возможных побочных действий, что позволит исключить ряд длительных и трудоемких стадий предварительного экспериментального скрининга и существенно ускорить процесс создания селективных лекарственных препаратов. Создание единой базы участков связывания модуляторов функциональной активности белков/ферментов в живых системах от микроорганизмов до человека позволит выявлять особенности структурной организации и регуляции белков/ферментов, обеспечивающих похожую функцию в организмах животных и человека по сравнению с патогенами бактериальной и вирусной природы, что даст возможность применить разработанную платформу высокопроизводительного компьютерного скрининга к решению широкого круга задач и проводить не только поиск прототипов новых лекарственных препаратов, но и оценку их токсичности и возможных побочных действий. Для проверки эффективности действия платформы будет осуществлена компьютерная и экспериментальная оптимизация структуры новых ингибиторов вируса гриппа.
Научный задел:
Модели, методы и средства высокопроизводительных вычислений. Одной из наиболее значимых задач, выполняемых коллективом исполнителей из МГУ имени М.В.Ломоносова, является работа по сопровождению и обеспечению эффективной эксплуатации Центра коллективного пользования сверхвысокопроизводительными вычислительными ресурсами МГУ имени М.В.Ломоносова, в который на данный момент входит уникальная научная установка (УНУ) суперкомпьютерный комплекс «Ломоносов-2» с суммарной пиковой производительностью 5.5 PFlops, являющийся одним из самых мощных Российских суперкомпьютеров, занимающим на данный момент 130-ое место в международном суперкомпьютерном рейтинге Top500, в котором находится 2 российские установки. Безусловной сильной стороной Центра коллективного пользования сверхвысокопроизводительными вычислительными ресурсами Московского университета является мощное пользовательское сообщество, сложившееся за время функционирования ЦКП. В настоящее время Суперкомпьютерный комплекс МГУ обеспечивает выполнение более 700 суперкомпьютерных проектов, инициированных более чем 100 научными институтами РАН и более чем 100 университетами России. Организация работ в масштабах большого суперкомпьютерного комплекса сопряжена с необходимостью постоянного решения ряда ключевых задач, вот лишь некоторые из них: мониторинг состояния программно-аппаратной среды, учет пользователей, управление доступом и квотами, исследование и оптимизация структуры потока задач, анализ характера использования выделенных ресурсов пользователями и пользовательскими приложениями, обеспечение бесперебойной работы и сохранности оборудования. Все эти и многие другие задачи успешно решаются благодаря использованию комплекса специально разработанных в МГУ профильных инструментов в каждодневной практике Суперкомпьютерного комплекса.
Добавил в систему: Антонов Александр Сергеевич

Источник финансирования НИР

грант РНФ

Этапы НИР

#	Сроки	Название
1	17 марта 2021 г.-31 декабря 2021 г.	Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа: Модели, методы и средства высокопроизводительных вычислений. Основной целью данной работы является разработка системы оценок, которая позволит оценивать и сравнивать качество использования вычислительных ресурсов в суперкомпьютерных приложениях. Для каждого типа ресурсов предполагается разработать по одной оценке, которая позволит быстро и достаточно точно анализировать общее качество работы с этим типом в рамках отдельных заданий, пользователей, проектов, организаций или прикладных пакетов; при этом собираться оценки будут автоматически для всех выполняющихся заданий. Рассматриваются следующие типы вычислительных ресурсов: процессоры, подсистема памяти, MPI сеть, файловая система (ввод-вывод), графические ускорители. На данном этапе работ была разработана первая версия оценок для рассматриваемых типов ресурсов. Так, оценки качества использования процессоров и подсистемы памяти, которые вычисляются на основе значений аппаратных счетчиков, учитывают долю процессорного времени, во время которого процессор был полностью загружен выполнением полезной работы или простаивал в ожидании данных из памяти, соответственно. Оценки MPI сети и ввода-вывода построены на другом принципе – они учитывают, какие проблемы с производительностью были автоматически обнаружены в выполняющихся приложениях, и насколько серьезно эти проблемы влияют на производительность приложений. Для анализа качества работы с графическими ускорителями были разработаны новые оценки, которые позволяют адаптировать идеи, заложенные в оценках процессоров и подсистемы памяти, для применения на GPU устройствах. Была выполнена реализация и апробация некоторых оценок на суперкомпьютере Ломоносов 2. В частности, был реализован в тестовом режиме модуль системы мониторинга для вычисления оценок качества использования процессоров и подсистемы памяти. Проведенная апробация показала, что предложенные оценки показывают достаточную точность и поэтому подходят для целей данного проекта. Был также реализован автоматический сбор оценок качества использования сети MPI и ввода-вывода для всех задач, выполняющихся на суперкомпьютере Ломоносов-2. Анализ собранной статистики по данным оценкам позволил сделать некоторые интересные выводы. Например, был обнаружен пользователь прикладного пакета, у которого оценка работы с MPI на порядок хуже, чем у всех других пользователей данного пакета. Причина этого заключается, судя по полученным данным, в слишком маленьком размере MPI пакетов, что приводило к существенным накладным расходам. Были также разработаны методы оперативного информирования пользователей и администраторов о качестве выполнения суперкомпьютерных приложений и систем, а также механизмы организации обратной связи с данными участниками, вовлеченными в работу суперкомпьютера. Было проведено детальное рассмотрение возможных вариантов, и в результате были разработаны наиболее подходящие в нашем случае методы, которые предполагают применение различных способов коммуникации в зависимости от оперативности необходимого взаимодействия и роли участников. Помимо этого, были продуманы возможные способы интеграции данных методов в пользовательские и административные технологические циклы, что позволит не только информировать пользователей и администраторов о качестве выполнения приложений, но и по возможности прилагать усилия для повышения этого качества. Физика элементарных частиц. Нами проводились исследования в рамках квантовой хромодинамики, т.е. современной теории сильных взаимодействий, в рамках которой процессы с протонами и нейтронами, а также другими сильно взаимодействующими частицами описываются взаимодействием кварков и глюонов. Аналитически вычислены поправки четвёртого порядка по константе связи в такие фундаментальные функции теории, как фотон-кварковый и Хиггс-глюонный форм-факторы в случае диаграмм, содержащих безмассовую фермионную петлю. Другие исследования по проекту, относящиеся к физике элементарных частиц, производились в рамках квантовой электродинамики. Нами аналитически вычислены так называемые двухпетлевые мастер-интегралы для второго типа планарных вкладов в рассеяние электронов и позитронов. Эти мастер-интегралы представляют собой базис в линейном пространстве всех фейнмановских интегралов данного типа, так что любой из интегралов в этом пространстве может быть выражен в виде некоторой линейном комбинации мастер-интегралов. Подобные результаты не могли бы быть получены без применения ранее разработанных нами программ FIRE и FIESTA, а также проведения оптимизированных вычислений с применением высокопроизводительных серверов (на данный момент без использования суперкомпьютеров). Разрабатываемые нами программы имеют как частные версии, так и публичные, доступные по следующим адресам: https://bitbucket.org/feynmanIntegrals/fiesta https://bitbucket.org/feynmanIntegrals/fire Искусственный интеллект и автоматическая обработка текстов. До недавнего времени большое внимание исследователей уделялось анализу тональности относительно простых видов текстов с точки зрения выражаемой тональности: отзывы пользователей или посты пользователей в Твиттере (твиты). Автоматический анализ тональности осуществляется с помощью двух основных подходов или их комбинирования, а именно методов машинного обучения и методов, основанных на словарях и правилах. В настоящее время удается в значительной мере повысить качество в задачах анализа тональности на основе глубоких нейронных, однако для этого требуются размеченные обучающие коллекции, которые часто отсутствуют в общественно-политической области, отличающейся большим разнообразием обсуждаемых явлений. В ходе первого года проекта собраны текстовые коллекции для исследования позиций по теме и аргументации, создан программный интерфейс для разметки высказываний по релевантности темам и позициям авторов по темам, на основе созданного интерфейса размечены датасеты, в которых выполнена разметка по релевантности темам и по позициям авторов по темам. Выполнено тестирование методов машинного обучения на основе созданных датасетов с разметкой мнений и проведено тестирование методов машинного обучения в задаче извлечения релевантности и мнений на основе англозычных датасетов. Суперкомпьютерный кодизайн для моделей Земной системы. В рамках проекта разработана вычислительная технология вихреразрешающего (LES, Large-Eddy Simulation) моделирования атмосферного пограничного слоя на параллельных вычислительных системах гетерогенной архитектуры. В численной модели используются консервативные конечно-разностные схемы второго и четвертого порядка точности для аппроксимации по пространству на прямоугольных сетках. Применение смешанного локализованного замыкания динамического типа позволяет воспроизвести вертикальное распределение скорости ветра и потенциальной температуры в квазистационарных устойчиво-стратифицированных и конвективных пограничных слоях при относительно грубом пространственном разрешении. Программная реализация основана на гибридном MPI-OpenMP-CUDA подходе и допускает выполнение расчетов как на центральных, так и графических процессорах. Разработанная вычислительная технология дает возможность рассматривать задачи численного моделирования атмосферного пограничного слоя и его суточной динамики на вычислительных сетках большой размерности и на современных суперкомпьютерных системах. В данном отчёте представлена новая версия схемы поверхности суши ИВМ РАН-МГУ, в которой термогидродинамическая модель речной сети встроена в структуру параллельного выполнения модели с использованием двух уровней параллелизма: первый предполагает независимую обработку речных бассейнов на основе MPI, а второй использует технику OpenMP для распараллеливания расчёта рек одного порядка Стралера. Численные эксперименты были проведены для восточноевропейской расчётной области с разрешением 0,5°×0,5°. MPI-реализация модели почвы основана на традиционной равномерной долготно-широтной декомпозиции области интегрирования модели, унаследованной от модели атмосферы. Показано, что параллельная эффективность модели почвы на 1-144 ядрах составляет 0.52-0.79 и ограничивается наличием океанической области, а также дисбалансом вычислительной нагрузки между почвенными колонками, обусловленным наличием/отсутствием снежного покрова и количества итераций для температуры поверхности, необходимых для обновления вертикальных распределений теплофизических характеристик на шаге по времени. Ускорение модели реки на уровне MPI не превысило 4 раза и определяется размером самого большого речного бассейна в расчётной области (Волга), тогда как на уровне OpenMP потенциал ускорения моделирования большого речного бассейна близок к количеству используемых потоков. Ускорению на уровне OpenMP в наших численных экспериментах препятствовало занижение порядков рек при грубом разрешении модели деятельного слоя (рекомендуемая производительность для Волжского бассейна достигается при 4-6 потоках с ускорением в 2,5-3 раза). Дальнейшее развитие параллельного кода включает MPI+OpenMP реализацию модели почвы, оптимизацию MPI-декомпозиции области интегрирования для модели почвы при наличии поверхности океана и дальнейшую настройку MPI+OpenMP конфигурации модели речной системы. Биоинформатика и моделирование живых систем. С использованием принципов суперкомпьютерного дизайна реализована высокоэффективная связка модуля метадинамики и молекулярной динамики на суперкомпьютере “Ломоносов 2” для проведения метадинамических расчётов, в том числе на графических ускорителях. Разрабатываются протоколы интеграции докинга, молекулярной динамики, метадинамики, вычислительной алхимии и новых алгоритмов структурной фильтрации для высокопроизводительного компьютерного скрининга и молекулярного дизайна лекарственных препаратов. Это позволило приступить к разработке новых ингибиторов нейраминидазы вируса гриппа, направленных на преодоление лекарственной устойчивости к существующим препаратам. Высокоэффективные вычисления помогли построить модель конформационной пластичности гемагглютинина вируса гриппа, включающая структурный переход белковой молекулы в “развернутое” состояние трех α-спиралей, необходимое для атаки клетки хозяина, которая будет пригодна для изучения функционирования целого класса патогенов, содержащих белки слияния I класса, включая COVID-19. В ходе работы определены структурные перестройки центральной части поверхностного белка, ответственного за слияние с мембраной клетки хозяина. Произведено моделирование спирализации отдельных субъединиц, из которых складывается центральный фрагмент стволового домена гемагглютинина. При моделировании было обнаружено, что при изменении конформации отдельных субъединиц, их спирализация может предшествовать выпрямлению в конечное состояние. Выпрямление может происходит с использованием особого шарнира в центральной области каждой из субъединиц. Из результатов моделирования становится ясно, что структурный переход каждой из трех субъединиц может быть разобщены во времени Спирализация первой субъединицы способна облегчать переход последующих субъединиц и стабилизировать промежуточные конформации. В ходе работы над проектом также установлены подробности каталитического механизма фермента 2-гидроксибифенил-3-монооксигеназы. Фермент был выделен из почвенной бактерии Pseudomonas azelaica, он позволяет этой бактерии использовать токсичный фунгицид 2-гидроксибифенил в качестве источника углерода и энергии. Механизм работы этого фермента изучен недостаточно, хотя этот фермент представляет как фундаментальный интерес для понимания биодеградации загрязнителей окружающей среды, так и имеет практическую значимость как катализатор для фармацевтической промышленности. Фермент катализирует реакцию окисления 2-гидроксибифенила в 2,3-дигидроксибифенил с помощью кислорода воздуха (добавляет вторую гидроксильную группу в орто-положение к первой), для его работы также требуются коферменты FAD и NADH. С использованием методов молекулярного моделирования на суперкомпьютере "Ломоносов-2" удалось существенно продвинуться в понимании механизма этого фермента: с помощью "разведывательной" метадинамики и методов машинного обучения уточнено положение гибких участков в активном центре; впервые установлен центр связывания кофермента NADH и проведено моделирование полуреакции восстановления активной части FAD с помощью NADH с использованием комбинированного метода квантовой механики, молекулярной механики и метадинамики. Другой задачей выполняемого этапа является моделирование каталитического механизма действия пенициллинацилазы из Escherichia coli и получение ее мутантов с измененными функциональными свойствами. Использование пенициллинацилаз в промышленных процессах производства бета-лактамных антибиотиков позволяет перейти к экологически безопасным технологиям, снижению энергоемкости, повышению качества и стоимости целевых продуктов. В настоящее время наиболее непонятной стадией реакций, катализируемых пенициллинацилазами, является превращение ацилферментного интермедиата. При моделировании была определена траектория доставки нуклеофила в активный центр и роль аминокислотных остатков в координации его аминогруппы для нуклеофильной атаки. Это поможет выявить пути целенаправленного изменения структуры фермента с целью дизайна более эффективных форм биокатализатора для синтеза. К настоящему моменту выявлены два аминокислотных остатка, мутации которых приводят к увеличению синтетической активности пенициллинацилазы. Высокопроизводительное моделирование и использование принципов суперкомпьютерного кодизайна при интеграции инструментов биоинформатики также помогли при изучении структурных изменений белков вируса гриппа (гемагглютинина и нейраминидазы) во время их адаптации к иммунной системе хозяина. Для эффективного распространения гриппа требуется координированное действие двух белков: гемагглютинина, обеспечивающего селективную колонизацию патогена на рецепторах хозяина, и нейраминидазы, способной гидролизовать рецепторы хозяина для отделения новообразовавшихся вирионов от клетки. Получено выравнивание последовательностей гемагглютининов вируса гриппа, обнаруженных у человека, птиц или свиней, и определен круг аминокислотных остатков белка, непосредственно контактирующих с устойчивыми топологиями структур олигосахаридных субстратов. Полученное выравнивание использовано для классификации нейраминидаз по специфичности к субстратам. Сформированные группы позволили определить аминокислотные остатки в нейраминидазах, ответственные за сохранение свойств специфичности в подгруппах. Обнаружены и смоделированы структурные изменения в четырех позициях в нейраминидазе одного из штаммов птичьего вируса, способного заражать человека.
2	1 января 2022 г.-31 декабря 2022 г.	Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа: В 2022 году по направлению исследований «Модели, методы и средства высокопроизводительных вычислений» создана система оценок, позволяющих выполнять анализ и сравнение качества использования суперкомпьютерных ресурсов. Модифицированы предложенные на первом этапе методы, которые реализованы и апробированы на суперкомпьютере петафлопсного уровня Ломоносов-2. Предложены более точные формулы для оценок, анализирующих использование подсистемы памяти и работу с GPU-устройствами. Вычисление оценок использования процессоров и памяти требует данных с процессорных датчиков, для их получения реализован модуль системы мониторинга, позволяющий собирать с вычислительных узлов расширенный набор данных в режиме мультиплексирования. Это потребовало проведения детального исследования накладных расходов, возникающих в данном режиме, выбран подход с ручным мультиплексированием с использованием библиотеки LIKWID. Вычисление оценок для сети MPI и ввода-вывода основано на данных об обнаруженных проблемах с производительностью, выявляемых с помощью системы TASC. Апробация предложенных оценок на реальных данных показала их применимость и полезность на практике при проведении анализа качества использования различных суперкомпьютерных ресурсов. Разработаны и апробированы методы поиска схожих шаблонов поведения суперкомпьютерных приложений, позволяющих с высокой точностью предсказывать значения оценок для новых заданий на основе исторических данных о более ранних заданиях. Разработан алгоритм предсказания на основе двух существующих методов, в рамках которого сначала выполняется первичная фильтрация потенциально похожих заданий статическим методом на основе информации об используемых именах и функциях в исполняемых файлах, а затем к оставшимся заданиям применяется динамический метод, анализирующий значения характеристик производительности заданий во время их выполнения. Предложенная реализация потребовала адаптации существующих решений, определения порога схожести заданий и решения вопросов с недостающими данными от системы мониторинга. Проведен ряд экспериментов с целью определения точности предложенного алгоритма предсказания оценок, а также его апробации на реальных данных. Для оценок использования процессоров и памяти проведено сравнение нескольких вариаций алгоритма работы, что позволило выбрать наилучший вариант, предсказывающий оценки для большого числа заданий и с высокой точностью. Этот вариант применен для предсказания оценок использования сети MPI и ввода-вывода, что подтвердило его применимость. Предполагается применение реализованных методов для характеристики тех заданиям, для которых оценки не были получены стандартным путем, а также для проверки корректности работы стандартных методов вычисления оценок. Реализована пилотная версия программного комплекса для анализа и сравнения качества использования суперкомпьютерных ресурсов на основе предложенных методов, а также ее интеграция с существующим решением TASC. Созданы модули для вычисления всех доступных оценок. Для оценок использования процессоров и памяти разработан новый модуль системы мониторинга, позволяющий собирать данные с расширенного набора процессорных датчиков. Предсказание оценок выполняется отдельным модулем, который периодически получает исходные данные из базы данных TASC и независимо выполняет анализ полученной информации на основе технологий машинного обучения. Реализована пилотная версия web-сервиса для получения удобного доступа к полученным результатам, который представляет базовую информацию об оценках по отдельным заданиям и пользователям, например, данные для поиска наиболее и наименее эффективных заданий и распределение значений двух оценок для анализа картины в целом и поиска корреляций между оценками. По направлению «Физика элементарных частиц» исследована возможность представления поправок теории возмущений в неабелевых теориях с общей простой калибровочной группой к функции Адлера, связанному с ней R-отношению e+e- аннигиляции в адроны, а также коэффициентной функции Бьёркена глубоконеупругого рассеяния заряженных лептонов на поляризованнных нуклонах в виде их разложения по степеням конформной аномалии. Это позволяет не только воспроизвести известную структуру {β}-разложения, но и предсказать все вклады, пропорциональные отличным от степеней β0-коэффициента. В пятом коэффициенте рассматриваемых пертурбативных величин остаются неизвестными лишь члены, пропорциональные β_0^3, β_0^2, β_0^1 и β_0^0, т.е. 4 из 12 возможных. Остальные члены однозначно определяются из предыдущих более низких порядков теории возмущений. Применение принципа максимальной конформности позволяет в каждом порядке теории возмущений поглотить все β-зависимые члены в масштаб, оставляя при этом только конформно-инвариантные слагаемые. Правильная процедура {β}-разложения с необходимостью должна применяться также по отношению к фотонной аномальной размерности, определяющей зависимость адронной поляризации вакуума от масштаба. Выполнен сравнительный анализ с результатами применения техники {β}-разложения к функции Адлера, определённой в теории сильных взаимодействий с введением дополнительных степеней свободы в виде майорановского мультиплета лёгких глюино. В рамках Стандартной Модели исследованы поправки к соотношению между полюсной и бегущей массами топ-кварка в схеме Флайшера-Егерленера. Применение данной схемы приводит к тому, что величина однопетлевой вакуумной диаграммы “головастик” с замкнутой петлёй t-кварка и пропагатором хиггсовского поля значительно превышает вклад остальных диаграмм, перенормирующих массу топ-кварка. Этот факт выражается в существенной величине однопетлевой электрослабой поправки к соотношению между полюсной и бегущей массами t-кварка, по модулю она почти на 3 ГэВ больше однопетлевой поправки КХД, имеющей противоположный знак. Это наблюдение не соответствует результатам одновременного определения рассматриваемых масс топ-кварка, полученных из анализа данных БАК и Тэватрона, где учитываются только КХД эффекты в соотношении между ними. В работе получен явный аналитический вид обсуждаемой однопетлевой электрослабой поправки в схеме Флайшера-Егерленера как функции масс топ-кварка, калибровочных W и Z-бозонов, а также массы бозона Хиггса. Вычислен четырехпетлевой судаковский формфактор в N=4 суперсимметричной теории Янга-Миллса. Задача редукции интегралов к мастер-интегралам стала более сложной. Но это осложнение оправдано, поскольку оно является разумной платой за то, чтобы получить решение задачи с дифференциальными уравнениями. Затем дифференциальные уравнения решались относительно x методом, предложенным Й. Хенном и основанном на канонических базисах, для которых правая часть дифференциальных уравнений пропорциональна параметру размерностной регуляризации epsilon=(4-d)/2. Главная техническая сложность в этом проекте - редукция каждого встречающегося интеграла к мастер-интегралам. Для редукции применяли альтернативные компьютерные коды: публичную компьютерную программу FIRE и частный код FINRED. Для редукции двухмасштабных фейнмановских интегралов к мастер-интегралам оптимально работает код FIRE, а для одномасштабных интегралов более мощным был FINRED. Вычислены все мастер-интегралы в epsilon-разложении вплоть до веса восемь. Результаты выражены через значения функции Римана в целых точках zeta[i] и многократные zeta-значения zeta[i,j]. Построен алгоритм и соответствующий компьютерный код для вычисления двухпетлевых смешанных КХД-слабых поправок в рождение бозона Хиггса в рамках глюонного синтеза, для диаграмм, содержащих петлю тяжелых кварков. Он основан на разложении по обратной большой массе t-кварка mt, которая представляет собой самый большой кинематический параметр теории. Как и разложение в пределе большого импульса, разложение при больших массах известно уже больше тридцати лет. Для произвольного фейнмановского интеграла оно записывается в виде суммы по подграфам определённого вида. Более удобным при получении результата оказывается язык разложения по областям. Для вклада каждого подграфа соответствующие члены в разложении описываются, как фейнмановские интегралы из некоторого нового семейства. С помощью кода FIRE они редуцируются к «своим» мастер-интегралам. Редукцию удалось сильно упростить, используя компьютерный код LiteRed, который для всех интегралов из шести данных семейств позволяет построить явные правила сведения к мастер-интегралам. Только два появляющихся однопетлевых мастер-интеграла не выражаются в гамма-функциях при произвольном значении параметра размерностной регуляризации epsilon=(4-d)/2. Соответствующие коэффициенты при степенях epsilon выражены через многократные полилогарифмы. По направлению исследований «Искусственный интеллект и автоматическая обработка текстов» предложен метод классификации мнений и аргументов пользователей при анализе мнений по поводу мер защиты от ковидной инфекции, включающий классификатор BERT-NLI, использование специализированной «ковидной» модели BERT, дообученной на текстах по ковидной тематике на английском языке, автоматический перевод высказываний на английский язык с целью применения ковидного BERT, маркирование объекта мнения. Предложенный подход занял первое место среди участников тестирования RuARG-2022 по качеству извлечения позиции и аргументов автора. При анализе мнений по поводу аспектов защиты от ковидной инфекции протестированы различные подходы по маскированию/маркированию объекта тональности. Вариант маркирования N4 (<A:ASPECT> keyword <\A:ASPECT>) дал наиболее устойчивое улучшение по сравнению с базовым методом при классификации позиции и аргументации. Набор данных по репродуктивной тематике (отношение к абортам, деторождению, мерам государственной политики), ранее размеченный по позициям пользователей, дополнительно размечен по наличию/отсутствию аргументации. Аргументы классифицированы по двум классам: общественное – пользователь обосновывает позицию через пользу для общества, индивидуальное – пользователь обосновывает позицию через личные проблемы/интересы. Исследованы методы классификации высказываний за счет маркирования дополнительных типов сущностей, включая 1) уже упомянутые объекты, 2) противительные союзы (а, но..) 3) союзы причины и цели (поэтому, потому …), 4) оценочные слова из словаря RuSentiLex, 5) оценочные предикаты из словаря RuSentiFrames 6) а также их комбинации. Наилучший результат достигнут при маркировании объектов мнения и противительных союзов - качество классификации выросло на 3 п.п. Для группирования сходных по смыслу объектов мнения предложен подход на основе суперпонятий, когда в тексте выделяются наиболее значимые семантические категории, затем используемые в предобработке набора данных маркированием или маскированием. Предобработка снижает несущественные различия между высказываниями, улучшает перенос обученного классификатора между датасетами. Для формирования суперпонятий использован комбинированный подход, сочетающий онтологические ресурсы и векторные представления слов, получаемые за счет применения нейронных сетей к текстовым данным. По направлению исследований «Суперкомпьютерный кодизайн для моделей Земной системы» создана версия модели деятельного слоя суши с явным воспроизведением уровня грунтовых (болотных вод). Предложено новое уравнение для уровня грунтовых вод. Уравнение для уровня содержит сток за счёт горизонтального течения в водонасыщенной части грунта согласно закону Дарси. Считается, что средний уклон уровня совпадает с уклоном поверхности ландшафта (болота), а проекция поверхности болота на горизонтальную плоскость аппроксимирована кругом. Численные эксперименты показали реалистичность предложенного подхода. Разработана вихреразрешающая модель атмосферного пограничного слоя, включающая описание процессов турбулентного обмена в атмосфере на основе динамического замыкания, а также процессов вертикального тепло- и влаго- переноса в почве. Численная модель позволяет проводить расчеты суточного хода при высоком пространственном разрешении и рассматривать задачи моделирования атмосферного пограничного слоя над термически и аэродинамически неоднородной подстилающей поверхностью. Полученные результаты воспроизведения суточного хода использовались для проверки турбулентных замыканий, используемых в моделях прогноза погоды и климата. Показано, что двухпараметрические замыкания при определении равновесных состояний, согласованных с локальным обобщением теории подобия Монина-Обухова, позволяют верно оценить высоту устойчиво-стратифицированного пограничного слоя в ночное время. Создана версия вихреразрешающей модели, учитывающей влияние наличия частиц на характеристики приземного слоя атмосферы. Установлено, что наличие взвешенных снежных частиц ведет к усилению стратификации приземного слоя атмосферы. Метод учета влияния частиц на изменение динамической скорости проверен на данных наблюдений станции Тикси. Использование измененной формулировки турбулентного масштаба длины с учетом наличия снежных частиц ведет к улучшению расчета динамической скорости. Параметризация, позволяющая учитывать влияние высоких концентраций частиц на плотностную стратификацию, внедрена в модель лагранжева переноса частиц и верифицирована на аналитических решениях, что позволит рассматривать задачи об изучении и уточнении описания динамики в приземном и пограничном слоях атмосферы. По направлению «Биоинформатика и моделирование живых систем» создана база данных участков связывания малых молекул белками/ферментами человека. Выделено 51758 потенциальных сайтов на основании данных о 4150 структурах. Для создания иерархической структуры базы данных разработан инструментарий оценки метрики расстояний сайтов белков на основе сверточной нейронной сети, учитывающей распределение электростатического поля внутри и снаружи молекулы белка. Обучение на репрезентативной выборке значительно улучшило метрики качества и разделение истинных и случайных сайтов. Применение разработанного подхода позволило идентифицировать сайты, способные наиболее эффективно связывать низкомолекулярные лиганды (порядка 16% от выделенных сайтов). Проведен биоинформатический анализ геномных данных и особенностей структурной организации ангиотензин-превращающего фермента 2 человека, являющегося мишенью для связывания S-белка вируса SARS-CoV-2. При множественном выравнивании аминокислотных последовательностей (порядка 900) ферментов семейства определено 179 специфических позиций SSP, которые могут быть вовлечены в этот процесс; в базе данных gnomAD определены координаты 180 полиморфизмов в человеческом гене. Более трети идентифицированных полиморфизмов в структуре ACE2 представляет выявленные нами SSP, остальные менее подвергнуты эволюционному давлению. При локализации позиций на интерфейсе взаимодействия ACE2-S-белок обнаружено 17 SSP: 4 полиморфные, оставшиеся уникальные. Предположено, что специфические позиции могут выступать в качестве факторов устойчивости/уязвимости при взаимодействии ACE2 человека с патогеном. Разработана процедура автоматизированного предсказания изменений функции белков/ферментов при изменениях их структуры. На суперкомпьютере Ломоносов-2 имплементирована система GATK для определения структурных вариаций генов при анализе данных высокопроизводительного секвенирования. Для утилиты Funcotator GATK, позволяющей аннотировать изменения генома, отличающиеся от эталонного, по базам данных GENCODE, dbSNP, gnomAD и COSMIC реализована возможность подключения данных сравнительного биоинформатического анализа ферментов, разработанного в нашей лаборатории: Mustguseal, Zebra и pocketZebra. Эффективность инструментария показана при анализе нарушений путей регуляции p53 в выборке образцов синовиальных (5 образцов) и недифференцированных плеоморфных сарком (33 образца) на основании частичного экзомного секвенирования (больше 9000 генов). Определены нарушения генов TP53, ATM, PIK3CB, PIK3R1, NTRK1, определяющие хемоустойчивость к доксорубицину. Проведен высокопроизводительный компьютерный скрининг ингибиторов вируса гриппа нового поколения. Идея создания бифункциональных ингибиторов, предложенная на предыдущем этапе, предполагает объединение в одной молекуле структурных фрагментов, взаимодействовующих как с активным центром, так и гидрофобной полостью-430 нейраминидазы и связанных линкером, взаимодействующим с аргининовой триадой. С применением разработанной нами программы vsFilt обнаружено оригинальное соединение STK663786, способное связываться в полости-430 благодаря формированию гидрофобных контактов с Trp403, Ile427 и Pro431. Для компьютерного скрининга бифункциональных ингибиторов нейраминидазы генерированы библиотеки сульфоновых и сульфонамидных производных известного ингибитора занамивира. При использовании бифункциональных ингибиторов мутация вируса на одном из участков связывания не будет критичной ввиду эффективного взаимодействия ингибитора со вторым участком. Отобраны перспективные соединения для дальнейшего экспериментального изучения противовирусных свойств.
3	1 января 2023 г.-31 декабря 2023 г.	Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа: Цель проекта - разработка и реализация системы оценок эффективности использования вычислительных ресурсов в суперкомпьютерных приложениях. Для каждого типа ресурсов предложена оценка быстрого и достаточно точного анализа качества работы заданий, пользователей, проектов, организаций или прикладных пакетов; оценки собираются автоматически для процессоров, подсистемы памяти, MPI сети, файловой системы (сети ввода-вывода), графических ускорителей. Реализован web-сервис для анализа результатов работы системы оценок, проведенная апробация показала его применимость, удобство обнаружения и анализа заданий с наиболее низким качеством использования ресурсов. Разработанные на прошлом этапе методы предсказания оценок адаптированы для применения в онлайн режиме и апробированы на реальных данных. Основная система оценок внедрена на суперкомпьютере Ломоносов-2. Выполнение правил проверяется автоматически, пользователи оповещаются, когда значения оценок слишком низки. Исследованы возможности переноса создаваемого программного комплекса для анализа качества использования суперкомпьютерных ресурсов. Составлено описание работ, осуществлен перенос программного решения на тестовый макет. Важным в отчетном году было рассмотрение эффективности использования суперкомпьютерных ресурсов при предсказательном моделировании в различных областях. Осуществлен анализ и оптимизация проводимых вычислений. Детально исследована производительность программной реализации модели пограничного слоя атмосферы и программы редукции интегралов Фейнмана, предложены пути оптимизации. При анализе производительности модели ИВМ РАН-МГУ на суперкомпьютере Ломоносов-2 обнаружен дисбаланс распределения работ между MPI-процессами, приводящий к простоям и ожиданию в точках синхронизации, дисбаланс в распределении работ между OpenMP-потоками, хотя эффективность работы в рамках одного потока достаточно высока, существенных проблем при работе с оперативной памятью не наблюдается; заметная часть времени выполнения программы приходится на невекторизованные циклы; векторизованные циклы реализованы эффективно; расширение AVX512 не задействовано. Определены основные направления оптимизации: устранение дисбаланса в распределении работы между MPI-процессами и OpenMP-потоками; векторизация ранее не векторизованных циклов, а также применение AVX512. По направлению «Физика элементарных частиц» развивалась программа FIRE для редукции интегралов Фейнмана к мастер-интегралам. Разработан универсальный инструмент FUEL, позволяющий использовать различные вычислители для упрощения коэффициентов. Развивался альтернативный подход с использованием модулярной арифметики, в программу FIRE внедрен метод восстановления коэффициентов. С использованием разработанных программ исследована возможность представления высших радиационных поправок к ренорминвариантным величинам в КХД в виде разложения по степеням конформной аномалии. Аналитически вычислены в разложении по параметру размерностной регуляризации epsilon все мастер-интегралы для безмассовых четырехпетлевых форм-факторов. По направлению «Искусственный интеллект и автоматическая обработка текстов» разработаны нейросетевые модели с встроенными словарями оценочной лексики для улучшения качества определения таргетированной тональности, созданы новые датасеты (новостные тексты и сообщения пользователей в социальных сетях) с разметкой тональности и аргументации для обучения нейросетевых моделей. Проведено тестирование подходов к таргетированному анализу тональности на русском языке в рамках соревнования RuSentNE-2023, показавшее эффективность использования сложных ансамблей, комбинирующих модели типа BERT, проблемой которых является плохая переносимость. Сравнимые результаты показали вычислительно более простые подходы на основе метода prompt-tuning - автоматической настройки вопроса к языковой модели. Проведен анализ ошибок использованных моделей. По направлению «Суперкомпьютерный кодизайн моделей Земной системы» разработана вихреразрешающая модель атмосферного пограничного слоя (АПС). Модель для случая жидкой фазы описывает перенос капель дождя в виде двух моментов распределения частиц по размерам – счетной и массовой концентраций. Для описания твердой фазы атмосферной влаги вихреразрешающая модель дополнена прогностическими уравнениями для массовой концентрации снега и крупы. В вихреразрешающую модель добавлена возможность подключения моделей переноса излучения в атмосфере. Выполнены предварительные оценки чувствительности речного блока модели ИВМ РАН-МГУ к горизонтальному разрешению. Эксперименты для рек Северная Двина и Печора показали, что эффект от изменения горизонтального разрешения может значительно повлиять на речной сток и уменьшить ошибку воспроизведения сроков половодья. В области физики элементарных частиц в 2023 г. в программу FIRE были внедрены библиотеки, осуществляющие алгебраические преобразования коэффициентов, что позволяет решать сильно разреженную систему линейных уравнений большого размера с полиномиальными коэффициентами с целью сведения всех требуемых диаграмм к мастер-интегралам, а количество неизвестных может составлять несколько миллиардов, число интересующих величин - десяток тысяч, число простейших, к которым нужно свести - порядка сотни. Алгоритмы решения системы нужного размера неизвестны, вероятнее всего, их не существует, поскольку только при адаптации к специфике задачи можно выйти на нужный уровень производительности. Опыт развития программы FIRE создает возможности для перехода на качественно новый уровень разработок моделей Земной Системы. По направлению «Биоинформатика и моделирование живых систем» создана база участков связывания модуляторов функциональной активности белков/ферментов с метрикой схожести физико-химических свойств с целью поиска новых путей связывания лигандов и выявления их побочного действия. Продолжена разработка процедуры автоматизированного предсказания потери функции белков/ферментов при изменениях их структуры по данным секвенирования с использованием суперкомпьютерной вычислительной среды. Проведен биоинформатический анализ суперсемейств, содержащих ферменты человека с обнаруженными мутациями при патологических состояниях; выявленные функционально важные аминокислотные остатки включены в создаваемый набор данных для последующей аннотации результатов секвенирования. Разработана высокопроизводительная платформа компьютерного скрининга и молекулярного дизайна лекарственных препаратов на основе докинга и структурной фильтрации. Для эффективного применения таких подходов необходимы алгоритмы отбора перспективных соединений, развитие сдерживает недостаточная точность прогнозирования энергии образования комплексов белок-лиганд. Ключевым элементом разработанной платформы является алгоритм vsFilt, учитывающий специфические взаимодействия между белком-мишенью и модулятором. Алгоритм vsFilt, оптимизированный для анализа молекул, содержащих сульфогруппу, использован при поиске ингибиторов ферментов патогенных бактерий и вирусов: отборе наиболее эффективных соединений среди фурансульфонатов в качестве ингибиторов транскетолазы возбудителя туберкулеза и поиске ингибиторов нейраминидазы вируса гриппа в библиотеке структур, содержащих сульфонамидную группу, в качестве прототипов средств принципиально нового типа.
4	1 января 2024 г.-31 декабря 2024 г.	Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа: По направлению «Модели, методы и средства высокопроизводительных вычислений» Создана платформа SCAS для анализа и сравнения качества использования суперкомпьютерных ресурсов, оценки эффективности работы приложений и представляющая систему для вычисления оценок качества использования ресурсов, методы для предсказания значений оценок, методы информирования пользователей и администраторов о качестве выполнения суперкомпьютерных приложений и систем, web-сервис для получения доступа к результатам SCAS. К платформе представлен доступ пользователям и администраторам суперкомпьютера петафлопсного уровня Ломоносов-2. Осуществлен перенос полученного решения на две высокопроизводительные системы из списка Топ50 суперкомпьютеров РФ, состоящий из сбора требуемых входных данных, развертывания SCAS, наладки импорта данных и апробации на практике. Проведен анализ статистики 2024 г. по качеству работы суперкомпьютера Ломоносов-2. Составлен список рекомендаций для повышения эффективности работы суперкомпьютеров. Выполнен анализ эффективности использования вычислительных ресурсов при компьютерном моделировании в рамках проекта. По направлению «Физика элементарных частиц» Усовершенствована программа FIRE редукции интегралов Фейнмана с использованием модулярной арифметики. Изменен порядок восстановления, чтобы проводилось восстановление рациональных функций многих переменных в модулярной арифметике и потом восстановление к полю рациональных чисел (это сокращает количество требуемых запусков более двух раз); подключена библиотека упрощения рациональных функций многих переменных FUEL, что позволило найти оптимальную библиотеку и ускорить восстановление коэффициентов; произведены внутренние оптимизации кода; новая версия программы FIRE сделана публичной. По направлению «Искусственный интеллект и автоматическая обработка текстов» Инициировано открытое тестирование RuOpinion-2024, направленное на извлечение из новостных текстов субъекта мнения, объекта мнения, тональности и обоснования мнения. Модели, решающие данную задачу, позволяют извлекать аргументацию одновременно с тональностью, что ведет к автоматическому построению карт аргументации. В качестве базовой модели для сравнения используется языковая модель Qwen в формате zero-shot. Для исследований карт аргументации на реальных источниках собраны данные по трем субъектам федерации. Выявлено, что доля протестной активности в регионе коррелирует со статистическим показателем индекса человеческого развития: чем выше индекс, тем ниже доля протестной активности. Создан словарь оценочной лексики научной области, содержащий 4400 оценочных слов и выражений, для поиска фрагментов научных статей, в которых обсуждаются достоинства разных методов и подходов для автоматизированного построения карты аргументации. По направлению «Суперкомпьютерный кодизайн для моделей Земной системы» Разработана вихреразрешающая (LES) модель НИВЦ МГУ/ИВМ РАН, включающая описание микрофизических процессов, радиационного переноса в атмосфере и тепловлагопереноса в почве, адаптированная для проведения расчетов на современных суперкомпьютерах гетерогенной архитектуры, состоящих из центральных процессоров и графических ускорителей (GPU). Реализация двухмоментной микрофизической схемы, описывающей распределение массовых и счетных концентраций облачной влаги, дождя, льда, снега и крупы, на GPU позволила значительно ускорить расчеты. На основе проведенного исследования влияния временного разрешения блока радиационного переноса на масштабируемость и результаты моделирования получены оценки оптимальных периодов обновления радиационных потоков в LES расчетах конвективных облачных пограничных слоев. Подготовлена усовершенствованная версия модели деятельного слоя суши для внедрения в модель Земной системы ИВМ РАН (TerM) с возможностью реализации на гибридных (MPI+OpenMP) высокопроизводительных вычислительных платформах. Разработана общая формулировка и частная численная реализация задачи сквозного решения задачи тепловлагопереноса в почве c явным выделением уровня грунтовых вод и с параметризацией горизонтального течения грунтовых вод для идеализированных форм рельефа. Произведён перенос отдельных блоков из TerM в МЗС INMCM, включая параметризацию влияния содержания почвенного льда на гидравлическую проводимость и капиллярно-сорбционный потенциал, зависимость потенциала от влажности по усовершенствованной формуле ван Генухтена. По направлению «Биоинформатика и моделирование живых систем» Создана база ключевых белков/ферментов человека и перечень мутаций, связанных с патологическими состояниями. Разработана процедура предсказания изменений функции белков при изменениях их структуры на основе анализа данных секвенирования, реализована возможность подключения выходных данных алгоритмов биоинформатического анализа семейств ферментов. Полученная информация создает основу формирования информационной службы для персонализированной медицины с использованием автоматизированного сервиса оценки функциональной значимости структурных вариаций генома человека по данным секвенирования. Создана база участков связывания модуляторов функции белков в живых системах от микроорганизмов до человека с использованием технологии компьютерного зрения. Созданная база представляет цифровые двойники участков связывания модуляторов функции, где для каждого участка рассчитано значение макромолекулярной электростатики и учтены свойства каждого атома. Проверена способность соединений, отобранных в результате компьютерного скрининга, подавлять активность нейраминидазы вируса гриппа. Для валидации предсказаний синтезированы бифункциональные соединения-производные аналога сиаловой кислоты, соединенные линкером со структурным фрагментом, комплементарным полости 430 рядом с активным центром фермента, определена ингибиторная активность. Проведен анализ взаимодействий бифункциональных соединений с аминокислотными остатками активного центра фермента, определены пути оптимизации структуры ингибиторов.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Development and implementation of the supercomputer codesign principles to enhance cross-cutting digital technologies and create a high performance computing platforms for predictive modeling and application of artificial intelligence: from the microcosm to living organisms and the Earth system

Источник финансирования НИР

Этапы НИР

Прикрепленные к НИР результаты