Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системыНИР

Development and implementation of the supercomputer codesign principles to enhance cross-cutting digital technologies and create a high performance computing platforms for predictive modeling and application of artificial intelligence: from the microcosm to living organisms and the Earth system

Источник финансирования НИР

грант РНФ

Этапы НИР

# Сроки Название
1 17 марта 2021 г.-31 декабря 2021 г. Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа: Модели, методы и средства высокопроизводительных вычислений. Основной целью данной работы является разработка системы оценок, которая позволит оценивать и сравнивать качество использования вычислительных ресурсов в суперкомпьютерных приложениях. Для каждого типа ресурсов предполагается разработать по одной оценке, которая позволит быстро и достаточно точно анализировать общее качество работы с этим типом в рамках отдельных заданий, пользователей, проектов, организаций или прикладных пакетов; при этом собираться оценки будут автоматически для всех выполняющихся заданий. Рассматриваются следующие типы вычислительных ресурсов: процессоры, подсистема памяти, MPI сеть, файловая система (ввод-вывод), графические ускорители. На данном этапе работ была разработана первая версия оценок для рассматриваемых типов ресурсов. Так, оценки качества использования процессоров и подсистемы памяти, которые вычисляются на основе значений аппаратных счетчиков, учитывают долю процессорного времени, во время которого процессор был полностью загружен выполнением полезной работы или простаивал в ожидании данных из памяти, соответственно. Оценки MPI сети и ввода-вывода построены на другом принципе – они учитывают, какие проблемы с производительностью были автоматически обнаружены в выполняющихся приложениях, и насколько серьезно эти проблемы влияют на производительность приложений. Для анализа качества работы с графическими ускорителями были разработаны новые оценки, которые позволяют адаптировать идеи, заложенные в оценках процессоров и подсистемы памяти, для применения на GPU устройствах. Была выполнена реализация и апробация некоторых оценок на суперкомпьютере Ломоносов 2. В частности, был реализован в тестовом режиме модуль системы мониторинга для вычисления оценок качества использования процессоров и подсистемы памяти. Проведенная апробация показала, что предложенные оценки показывают достаточную точность и поэтому подходят для целей данного проекта. Был также реализован автоматический сбор оценок качества использования сети MPI и ввода-вывода для всех задач, выполняющихся на суперкомпьютере Ломоносов-2. Анализ собранной статистики по данным оценкам позволил сделать некоторые интересные выводы. Например, был обнаружен пользователь прикладного пакета, у которого оценка работы с MPI на порядок хуже, чем у всех других пользователей данного пакета. Причина этого заключается, судя по полученным данным, в слишком маленьком размере MPI пакетов, что приводило к существенным накладным расходам. Были также разработаны методы оперативного информирования пользователей и администраторов о качестве выполнения суперкомпьютерных приложений и систем, а также механизмы организации обратной связи с данными участниками, вовлеченными в работу суперкомпьютера. Было проведено детальное рассмотрение возможных вариантов, и в результате были разработаны наиболее подходящие в нашем случае методы, которые предполагают применение различных способов коммуникации в зависимости от оперативности необходимого взаимодействия и роли участников. Помимо этого, были продуманы возможные способы интеграции данных методов в пользовательские и административные технологические циклы, что позволит не только информировать пользователей и администраторов о качестве выполнения приложений, но и по возможности прилагать усилия для повышения этого качества. Физика элементарных частиц. Нами проводились исследования в рамках квантовой хромодинамики, т.е. современной теории сильных взаимодействий, в рамках которой процессы с протонами и нейтронами, а также другими сильно взаимодействующими частицами описываются взаимодействием кварков и глюонов. Аналитически вычислены поправки четвёртого порядка по константе связи в такие фундаментальные функции теории, как фотон-кварковый и Хиггс-глюонный форм-факторы в случае диаграмм, содержащих безмассовую фермионную петлю. Другие исследования по проекту, относящиеся к физике элементарных частиц, производились в рамках квантовой электродинамики. Нами аналитически вычислены так называемые двухпетлевые мастер-интегралы для второго типа планарных вкладов в рассеяние электронов и позитронов. Эти мастер-интегралы представляют собой базис в линейном пространстве всех фейнмановских интегралов данного типа, так что любой из интегралов в этом пространстве может быть выражен в виде некоторой линейном комбинации мастер-интегралов. Подобные результаты не могли бы быть получены без применения ранее разработанных нами программ FIRE и FIESTA, а также проведения оптимизированных вычислений с применением высокопроизводительных серверов (на данный момент без использования суперкомпьютеров). Разрабатываемые нами программы имеют как частные версии, так и публичные, доступные по следующим адресам: https://bitbucket.org/feynmanIntegrals/fiesta https://bitbucket.org/feynmanIntegrals/fire Искусственный интеллект и автоматическая обработка текстов. До недавнего времени большое внимание исследователей уделялось анализу тональности относительно простых видов текстов с точки зрения выражаемой тональности: отзывы пользователей или посты пользователей в Твиттере (твиты). Автоматический анализ тональности осуществляется с помощью двух основных подходов или их комбинирования, а именно методов машинного обучения и методов, основанных на словарях и правилах. В настоящее время удается в значительной мере повысить качество в задачах анализа тональности на основе глубоких нейронных, однако для этого требуются размеченные обучающие коллекции, которые часто отсутствуют в общественно-политической области, отличающейся большим разнообразием обсуждаемых явлений. В ходе первого года проекта собраны текстовые коллекции для исследования позиций по теме и аргументации, создан программный интерфейс для разметки высказываний по релевантности темам и позициям авторов по темам, на основе созданного интерфейса размечены датасеты, в которых выполнена разметка по релевантности темам и по позициям авторов по темам. Выполнено тестирование методов машинного обучения на основе созданных датасетов с разметкой мнений и проведено тестирование методов машинного обучения в задаче извлечения релевантности и мнений на основе англозычных датасетов. Суперкомпьютерный кодизайн для моделей Земной системы. В рамках проекта разработана вычислительная технология вихреразрешающего (LES, Large-Eddy Simulation) моделирования атмосферного пограничного слоя на параллельных вычислительных системах гетерогенной архитектуры. В численной модели используются консервативные конечно-разностные схемы второго и четвертого порядка точности для аппроксимации по пространству на прямоугольных сетках. Применение смешанного локализованного замыкания динамического типа позволяет воспроизвести вертикальное распределение скорости ветра и потенциальной температуры в квазистационарных устойчиво-стратифицированных и конвективных пограничных слоях при относительно грубом пространственном разрешении. Программная реализация основана на гибридном MPI-OpenMP-CUDA подходе и допускает выполнение расчетов как на центральных, так и графических процессорах. Разработанная вычислительная технология дает возможность рассматривать задачи численного моделирования атмосферного пограничного слоя и его суточной динамики на вычислительных сетках большой размерности и на современных суперкомпьютерных системах. В данном отчёте представлена новая версия схемы поверхности суши ИВМ РАН-МГУ, в которой термогидродинамическая модель речной сети встроена в структуру параллельного выполнения модели с использованием двух уровней параллелизма: первый предполагает независимую обработку речных бассейнов на основе MPI, а второй использует технику OpenMP для распараллеливания расчёта рек одного порядка Стралера. Численные эксперименты были проведены для восточноевропейской расчётной области с разрешением 0,5°×0,5°. MPI-реализация модели почвы основана на традиционной равномерной долготно-широтной декомпозиции области интегрирования модели, унаследованной от модели атмосферы. Показано, что параллельная эффективность модели почвы на 1-144 ядрах составляет 0.52-0.79 и ограничивается наличием океанической области, а также дисбалансом вычислительной нагрузки между почвенными колонками, обусловленным наличием/отсутствием снежного покрова и количества итераций для температуры поверхности, необходимых для обновления вертикальных распределений теплофизических характеристик на шаге по времени. Ускорение модели реки на уровне MPI не превысило 4 раза и определяется размером самого большого речного бассейна в расчётной области (Волга), тогда как на уровне OpenMP потенциал ускорения моделирования большого речного бассейна близок к количеству используемых потоков. Ускорению на уровне OpenMP в наших численных экспериментах препятствовало занижение порядков рек при грубом разрешении модели деятельного слоя (рекомендуемая производительность для Волжского бассейна достигается при 4-6 потоках с ускорением в 2,5-3 раза). Дальнейшее развитие параллельного кода включает MPI+OpenMP реализацию модели почвы, оптимизацию MPI-декомпозиции области интегрирования для модели почвы при наличии поверхности океана и дальнейшую настройку MPI+OpenMP конфигурации модели речной системы. Биоинформатика и моделирование живых систем. С использованием принципов суперкомпьютерного дизайна реализована высокоэффективная связка модуля метадинамики и молекулярной динамики на суперкомпьютере “Ломоносов 2” для проведения метадинамических расчётов, в том числе на графических ускорителях. Разрабатываются протоколы интеграции докинга, молекулярной динамики, метадинамики, вычислительной алхимии и новых алгоритмов структурной фильтрации для высокопроизводительного компьютерного скрининга и молекулярного дизайна лекарственных препаратов. Это позволило приступить к разработке новых ингибиторов нейраминидазы вируса гриппа, направленных на преодоление лекарственной устойчивости к существующим препаратам. Высокоэффективные вычисления помогли построить модель конформационной пластичности гемагглютинина вируса гриппа, включающая структурный переход белковой молекулы в “развернутое” состояние трех α-спиралей, необходимое для атаки клетки хозяина, которая будет пригодна для изучения функционирования целого класса патогенов, содержащих белки слияния I класса, включая COVID-19. В ходе работы определены структурные перестройки центральной части поверхностного белка, ответственного за слияние с мембраной клетки хозяина. Произведено моделирование спирализации отдельных субъединиц, из которых складывается центральный фрагмент стволового домена гемагглютинина. При моделировании было обнаружено, что при изменении конформации отдельных субъединиц, их спирализация может предшествовать выпрямлению в конечное состояние. Выпрямление может происходит с использованием особого шарнира в центральной области каждой из субъединиц. Из результатов моделирования становится ясно, что структурный переход каждой из трех субъединиц может быть разобщены во времени Спирализация первой субъединицы способна облегчать переход последующих субъединиц и стабилизировать промежуточные конформации. В ходе работы над проектом также установлены подробности каталитического механизма фермента 2-гидроксибифенил-3-монооксигеназы. Фермент был выделен из почвенной бактерии Pseudomonas azelaica, он позволяет этой бактерии использовать токсичный фунгицид 2-гидроксибифенил в качестве источника углерода и энергии. Механизм работы этого фермента изучен недостаточно, хотя этот фермент представляет как фундаментальный интерес для понимания биодеградации загрязнителей окружающей среды, так и имеет практическую значимость как катализатор для фармацевтической промышленности. Фермент катализирует реакцию окисления 2-гидроксибифенила в 2,3-дигидроксибифенил с помощью кислорода воздуха (добавляет вторую гидроксильную группу в орто-положение к первой), для его работы также требуются коферменты FAD и NADH. С использованием методов молекулярного моделирования на суперкомпьютере "Ломоносов-2" удалось существенно продвинуться в понимании механизма этого фермента: с помощью "разведывательной" метадинамики и методов машинного обучения уточнено положение гибких участков в активном центре; впервые установлен центр связывания кофермента NADH и проведено моделирование полуреакции восстановления активной части FAD с помощью NADH с использованием комбинированного метода квантовой механики, молекулярной механики и метадинамики. Другой задачей выполняемого этапа является моделирование каталитического механизма действия пенициллинацилазы из Escherichia coli и получение ее мутантов с измененными функциональными свойствами. Использование пенициллинацилаз в промышленных процессах производства бета-лактамных антибиотиков позволяет перейти к экологически безопасным технологиям, снижению энергоемкости, повышению качества и стоимости целевых продуктов. В настоящее время наиболее непонятной стадией реакций, катализируемых пенициллинацилазами, является превращение ацилферментного интермедиата. При моделировании была определена траектория доставки нуклеофила в активный центр и роль аминокислотных остатков в координации его аминогруппы для нуклеофильной атаки. Это поможет выявить пути целенаправленного изменения структуры фермента с целью дизайна более эффективных форм биокатализатора для синтеза. К настоящему моменту выявлены два аминокислотных остатка, мутации которых приводят к увеличению синтетической активности пенициллинацилазы. Высокопроизводительное моделирование и использование принципов суперкомпьютерного кодизайна при интеграции инструментов биоинформатики также помогли при изучении структурных изменений белков вируса гриппа (гемагглютинина и нейраминидазы) во время их адаптации к иммунной системе хозяина. Для эффективного распространения гриппа требуется координированное действие двух белков: гемагглютинина, обеспечивающего селективную колонизацию патогена на рецепторах хозяина, и нейраминидазы, способной гидролизовать рецепторы хозяина для отделения новообразовавшихся вирионов от клетки. Получено выравнивание последовательностей гемагглютининов вируса гриппа, обнаруженных у человека, птиц или свиней, и определен круг аминокислотных остатков белка, непосредственно контактирующих с устойчивыми топологиями структур олигосахаридных субстратов. Полученное выравнивание использовано для классификации нейраминидаз по специфичности к субстратам. Сформированные группы позволили определить аминокислотные остатки в нейраминидазах, ответственные за сохранение свойств специфичности в подгруппах. Обнаружены и смоделированы структурные изменения в четырех позициях в нейраминидазе одного из штаммов птичьего вируса, способного заражать человека.
2 1 января 2022 г.-31 декабря 2022 г. Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа: В 2022 году по направлению исследований «Модели, методы и средства высокопроизводительных вычислений» создана система оценок, позволяющих выполнять анализ и сравнение качества использования суперкомпьютерных ресурсов. Модифицированы предложенные на первом этапе методы, которые реализованы и апробированы на суперкомпьютере петафлопсного уровня Ломоносов-2. Предложены более точные формулы для оценок, анализирующих использование подсистемы памяти и работу с GPU-устройствами. Вычисление оценок использования процессоров и памяти требует данных с процессорных датчиков, для их получения реализован модуль системы мониторинга, позволяющий собирать с вычислительных узлов расширенный набор данных в режиме мультиплексирования. Это потребовало проведения детального исследования накладных расходов, возникающих в данном режиме, выбран подход с ручным мультиплексированием с использованием библиотеки LIKWID. Вычисление оценок для сети MPI и ввода-вывода основано на данных об обнаруженных проблемах с производительностью, выявляемых с помощью системы TASC. Апробация предложенных оценок на реальных данных показала их применимость и полезность на практике при проведении анализа качества использования различных суперкомпьютерных ресурсов. Разработаны и апробированы методы поиска схожих шаблонов поведения суперкомпьютерных приложений, позволяющих с высокой точностью предсказывать значения оценок для новых заданий на основе исторических данных о более ранних заданиях. Разработан алгоритм предсказания на основе двух существующих методов, в рамках которого сначала выполняется первичная фильтрация потенциально похожих заданий статическим методом на основе информации об используемых именах и функциях в исполняемых файлах, а затем к оставшимся заданиям применяется динамический метод, анализирующий значения характеристик производительности заданий во время их выполнения. Предложенная реализация потребовала адаптации существующих решений, определения порога схожести заданий и решения вопросов с недостающими данными от системы мониторинга. Проведен ряд экспериментов с целью определения точности предложенного алгоритма предсказания оценок, а также его апробации на реальных данных. Для оценок использования процессоров и памяти проведено сравнение нескольких вариаций алгоритма работы, что позволило выбрать наилучший вариант, предсказывающий оценки для большого числа заданий и с высокой точностью. Этот вариант применен для предсказания оценок использования сети MPI и ввода-вывода, что подтвердило его применимость. Предполагается применение реализованных методов для характеристики тех заданиям, для которых оценки не были получены стандартным путем, а также для проверки корректности работы стандартных методов вычисления оценок. Реализована пилотная версия программного комплекса для анализа и сравнения качества использования суперкомпьютерных ресурсов на основе предложенных методов, а также ее интеграция с существующим решением TASC. Созданы модули для вычисления всех доступных оценок. Для оценок использования процессоров и памяти разработан новый модуль системы мониторинга, позволяющий собирать данные с расширенного набора процессорных датчиков. Предсказание оценок выполняется отдельным модулем, который периодически получает исходные данные из базы данных TASC и независимо выполняет анализ полученной информации на основе технологий машинного обучения. Реализована пилотная версия web-сервиса для получения удобного доступа к полученным результатам, который представляет базовую информацию об оценках по отдельным заданиям и пользователям, например, данные для поиска наиболее и наименее эффективных заданий и распределение значений двух оценок для анализа картины в целом и поиска корреляций между оценками. По направлению «Физика элементарных частиц» исследована возможность представления поправок теории возмущений в неабелевых теориях с общей простой калибровочной группой к функции Адлера, связанному с ней R-отношению e+e- аннигиляции в адроны, а также коэффициентной функции Бьёркена глубоконеупругого рассеяния заряженных лептонов на поляризованнных нуклонах в виде их разложения по степеням конформной аномалии. Это позволяет не только воспроизвести известную структуру {β}-разложения, но и предсказать все вклады, пропорциональные отличным от степеней β0-коэффициента. В пятом коэффициенте рассматриваемых пертурбативных величин остаются неизвестными лишь члены, пропорциональные β_0^3, β_0^2, β_0^1 и β_0^0, т.е. 4 из 12 возможных. Остальные члены однозначно определяются из предыдущих более низких порядков теории возмущений. Применение принципа максимальной конформности позволяет в каждом порядке теории возмущений поглотить все β-зависимые члены в масштаб, оставляя при этом только конформно-инвариантные слагаемые. Правильная процедура {β}-разложения с необходимостью должна применяться также по отношению к фотонной аномальной размерности, определяющей зависимость адронной поляризации вакуума от масштаба. Выполнен сравнительный анализ с результатами применения техники {β}-разложения к функции Адлера, определённой в теории сильных взаимодействий с введением дополнительных степеней свободы в виде майорановского мультиплета лёгких глюино. В рамках Стандартной Модели исследованы поправки к соотношению между полюсной и бегущей массами топ-кварка в схеме Флайшера-Егерленера. Применение данной схемы приводит к тому, что величина однопетлевой вакуумной диаграммы “головастик” с замкнутой петлёй t-кварка и пропагатором хиггсовского поля значительно превышает вклад остальных диаграмм, перенормирующих массу топ-кварка. Этот факт выражается в существенной величине однопетлевой электрослабой поправки к соотношению между полюсной и бегущей массами t-кварка, по модулю она почти на 3 ГэВ больше однопетлевой поправки КХД, имеющей противоположный знак. Это наблюдение не соответствует результатам одновременного определения рассматриваемых масс топ-кварка, полученных из анализа данных БАК и Тэватрона, где учитываются только КХД эффекты в соотношении между ними. В работе получен явный аналитический вид обсуждаемой однопетлевой электрослабой поправки в схеме Флайшера-Егерленера как функции масс топ-кварка, калибровочных W и Z-бозонов, а также массы бозона Хиггса. Вычислен четырехпетлевой судаковский формфактор в N=4 суперсимметричной теории Янга-Миллса. Задача редукции интегралов к мастер-интегралам стала более сложной. Но это осложнение оправдано, поскольку оно является разумной платой за то, чтобы получить решение задачи с дифференциальными уравнениями. Затем дифференциальные уравнения решались относительно x методом, предложенным Й. Хенном и основанном на канонических базисах, для которых правая часть дифференциальных уравнений пропорциональна параметру размерностной регуляризации epsilon=(4-d)/2. Главная техническая сложность в этом проекте - редукция каждого встречающегося интеграла к мастер-интегралам. Для редукции применяли альтернативные компьютерные коды: публичную компьютерную программу FIRE и частный код FINRED. Для редукции двухмасштабных фейнмановских интегралов к мастер-интегралам оптимально работает код FIRE, а для одномасштабных интегралов более мощным был FINRED. Вычислены все мастер-интегралы в epsilon-разложении вплоть до веса восемь. Результаты выражены через значения функции Римана в целых точках zeta[i] и многократные zeta-значения zeta[i,j]. Построен алгоритм и соответствующий компьютерный код для вычисления двухпетлевых смешанных КХД-слабых поправок в рождение бозона Хиггса в рамках глюонного синтеза, для диаграмм, содержащих петлю тяжелых кварков. Он основан на разложении по обратной большой массе t-кварка mt, которая представляет собой самый большой кинематический параметр теории. Как и разложение в пределе большого импульса, разложение при больших массах известно уже больше тридцати лет. Для произвольного фейнмановского интеграла оно записывается в виде суммы по подграфам определённого вида. Более удобным при получении результата оказывается язык разложения по областям. Для вклада каждого подграфа соответствующие члены в разложении описываются, как фейнмановские интегралы из некоторого нового семейства. С помощью кода FIRE они редуцируются к «своим» мастер-интегралам. Редукцию удалось сильно упростить, используя компьютерный код LiteRed, который для всех интегралов из шести данных семейств позволяет построить явные правила сведения к мастер-интегралам. Только два появляющихся однопетлевых мастер-интеграла не выражаются в гамма-функциях при произвольном значении параметра размерностной регуляризации epsilon=(4-d)/2. Соответствующие коэффициенты при степенях epsilon выражены через многократные полилогарифмы. По направлению исследований «Искусственный интеллект и автоматическая обработка текстов» предложен метод классификации мнений и аргументов пользователей при анализе мнений по поводу мер защиты от ковидной инфекции, включающий классификатор BERT-NLI, использование специализированной «ковидной» модели BERT, дообученной на текстах по ковидной тематике на английском языке, автоматический перевод высказываний на английский язык с целью применения ковидного BERT, маркирование объекта мнения. Предложенный подход занял первое место среди участников тестирования RuARG-2022 по качеству извлечения позиции и аргументов автора. При анализе мнений по поводу аспектов защиты от ковидной инфекции протестированы различные подходы по маскированию/маркированию объекта тональности. Вариант маркирования N4 (<A:ASPECT> keyword <\A:ASPECT>) дал наиболее устойчивое улучшение по сравнению с базовым методом при классификации позиции и аргументации. Набор данных по репродуктивной тематике (отношение к абортам, деторождению, мерам государственной политики), ранее размеченный по позициям пользователей, дополнительно размечен по наличию/отсутствию аргументации. Аргументы классифицированы по двум классам: общественное – пользователь обосновывает позицию через пользу для общества, индивидуальное – пользователь обосновывает позицию через личные проблемы/интересы. Исследованы методы классификации высказываний за счет маркирования дополнительных типов сущностей, включая 1) уже упомянутые объекты, 2) противительные союзы (а, но..) 3) союзы причины и цели (поэтому, потому …), 4) оценочные слова из словаря RuSentiLex, 5) оценочные предикаты из словаря RuSentiFrames 6) а также их комбинации. Наилучший результат достигнут при маркировании объектов мнения и противительных союзов - качество классификации выросло на 3 п.п. Для группирования сходных по смыслу объектов мнения предложен подход на основе суперпонятий, когда в тексте выделяются наиболее значимые семантические категории, затем используемые в предобработке набора данных маркированием или маскированием. Предобработка снижает несущественные различия между высказываниями, улучшает перенос обученного классификатора между датасетами. Для формирования суперпонятий использован комбинированный подход, сочетающий онтологические ресурсы и векторные представления слов, получаемые за счет применения нейронных сетей к текстовым данным. По направлению исследований «Суперкомпьютерный кодизайн для моделей Земной системы» создана версия модели деятельного слоя суши с явным воспроизведением уровня грунтовых (болотных вод). Предложено новое уравнение для уровня грунтовых вод. Уравнение для уровня содержит сток за счёт горизонтального течения в водонасыщенной части грунта согласно закону Дарси. Считается, что средний уклон уровня совпадает с уклоном поверхности ландшафта (болота), а проекция поверхности болота на горизонтальную плоскость аппроксимирована кругом. Численные эксперименты показали реалистичность предложенного подхода. Разработана вихреразрешающая модель атмосферного пограничного слоя, включающая описание процессов турбулентного обмена в атмосфере на основе динамического замыкания, а также процессов вертикального тепло- и влаго- переноса в почве. Численная модель позволяет проводить расчеты суточного хода при высоком пространственном разрешении и рассматривать задачи моделирования атмосферного пограничного слоя над термически и аэродинамически неоднородной подстилающей поверхностью. Полученные результаты воспроизведения суточного хода использовались для проверки турбулентных замыканий, используемых в моделях прогноза погоды и климата. Показано, что двухпараметрические замыкания при определении равновесных состояний, согласованных с локальным обобщением теории подобия Монина-Обухова, позволяют верно оценить высоту устойчиво-стратифицированного пограничного слоя в ночное время. Создана версия вихреразрешающей модели, учитывающей влияние наличия частиц на характеристики приземного слоя атмосферы. Установлено, что наличие взвешенных снежных частиц ведет к усилению стратификации приземного слоя атмосферы. Метод учета влияния частиц на изменение динамической скорости проверен на данных наблюдений станции Тикси. Использование измененной формулировки турбулентного масштаба длины с учетом наличия снежных частиц ведет к улучшению расчета динамической скорости. Параметризация, позволяющая учитывать влияние высоких концентраций частиц на плотностную стратификацию, внедрена в модель лагранжева переноса частиц и верифицирована на аналитических решениях, что позволит рассматривать задачи об изучении и уточнении описания динамики в приземном и пограничном слоях атмосферы. По направлению «Биоинформатика и моделирование живых систем» создана база данных участков связывания малых молекул белками/ферментами человека. Выделено 51758 потенциальных сайтов на основании данных о 4150 структурах. Для создания иерархической структуры базы данных разработан инструментарий оценки метрики расстояний сайтов белков на основе сверточной нейронной сети, учитывающей распределение электростатического поля внутри и снаружи молекулы белка. Обучение на репрезентативной выборке значительно улучшило метрики качества и разделение истинных и случайных сайтов. Применение разработанного подхода позволило идентифицировать сайты, способные наиболее эффективно связывать низкомолекулярные лиганды (порядка 16% от выделенных сайтов). Проведен биоинформатический анализ геномных данных и особенностей структурной организации ангиотензин-превращающего фермента 2 человека, являющегося мишенью для связывания S-белка вируса SARS-CoV-2. При множественном выравнивании аминокислотных последовательностей (порядка 900) ферментов семейства определено 179 специфических позиций SSP, которые могут быть вовлечены в этот процесс; в базе данных gnomAD определены координаты 180 полиморфизмов в человеческом гене. Более трети идентифицированных полиморфизмов в структуре ACE2 представляет выявленные нами SSP, остальные менее подвергнуты эволюционному давлению. При локализации позиций на интерфейсе взаимодействия ACE2-S-белок обнаружено 17 SSP: 4 полиморфные, оставшиеся уникальные. Предположено, что специфические позиции могут выступать в качестве факторов устойчивости/уязвимости при взаимодействии ACE2 человека с патогеном. Разработана процедура автоматизированного предсказания изменений функции белков/ферментов при изменениях их структуры. На суперкомпьютере Ломоносов-2 имплементирована система GATK для определения структурных вариаций генов при анализе данных высокопроизводительного секвенирования. Для утилиты Funcotator GATK, позволяющей аннотировать изменения генома, отличающиеся от эталонного, по базам данных GENCODE, dbSNP, gnomAD и COSMIC реализована возможность подключения данных сравнительного биоинформатического анализа ферментов, разработанного в нашей лаборатории: Mustguseal, Zebra и pocketZebra. Эффективность инструментария показана при анализе нарушений путей регуляции p53 в выборке образцов синовиальных (5 образцов) и недифференцированных плеоморфных сарком (33 образца) на основании частичного экзомного секвенирования (больше 9000 генов). Определены нарушения генов TP53, ATM, PIK3CB, PIK3R1, NTRK1, определяющие хемоустойчивость к доксорубицину. Проведен высокопроизводительный компьютерный скрининг ингибиторов вируса гриппа нового поколения. Идея создания бифункциональных ингибиторов, предложенная на предыдущем этапе, предполагает объединение в одной молекуле структурных фрагментов, взаимодействовующих как с активным центром, так и гидрофобной полостью-430 нейраминидазы и связанных линкером, взаимодействующим с аргининовой триадой. С применением разработанной нами программы vsFilt обнаружено оригинальное соединение STK663786, способное связываться в полости-430 благодаря формированию гидрофобных контактов с Trp403, Ile427 и Pro431. Для компьютерного скрининга бифункциональных ингибиторов нейраминидазы генерированы библиотеки сульфоновых и сульфонамидных производных известного ингибитора занамивира. При использовании бифункциональных ингибиторов мутация вируса на одном из участков связывания не будет критичной ввиду эффективного взаимодействия ингибитора со вторым участком. Отобраны перспективные соединения для дальнейшего экспериментального изучения противовирусных свойств.
3 1 января 2023 г.-31 декабря 2023 г. Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа: Цель проекта - разработка и реализация системы оценок эффективности использования вычислительных ресурсов в суперкомпьютерных приложениях. Для каждого типа ресурсов предложена оценка быстрого и достаточно точного анализа качества работы заданий, пользователей, проектов, организаций или прикладных пакетов; оценки собираются автоматически для процессоров, подсистемы памяти, MPI сети, файловой системы (сети ввода-вывода), графических ускорителей. Реализован web-сервис для анализа результатов работы системы оценок, проведенная апробация показала его применимость, удобство обнаружения и анализа заданий с наиболее низким качеством использования ресурсов. Разработанные на прошлом этапе методы предсказания оценок адаптированы для применения в онлайн режиме и апробированы на реальных данных. Основная система оценок внедрена на суперкомпьютере Ломоносов-2. Выполнение правил проверяется автоматически, пользователи оповещаются, когда значения оценок слишком низки. Исследованы возможности переноса создаваемого программного комплекса для анализа качества использования суперкомпьютерных ресурсов. Составлено описание работ, осуществлен перенос программного решения на тестовый макет. Важным в отчетном году было рассмотрение эффективности использования суперкомпьютерных ресурсов при предсказательном моделировании в различных областях. Осуществлен анализ и оптимизация проводимых вычислений. Детально исследована производительность программной реализации модели пограничного слоя атмосферы и программы редукции интегралов Фейнмана, предложены пути оптимизации. При анализе производительности модели ИВМ РАН-МГУ на суперкомпьютере Ломоносов-2 обнаружен дисбаланс распределения работ между MPI-процессами, приводящий к простоям и ожиданию в точках синхронизации, дисбаланс в распределении работ между OpenMP-потоками, хотя эффективность работы в рамках одного потока достаточно высока, существенных проблем при работе с оперативной памятью не наблюдается; заметная часть времени выполнения программы приходится на невекторизованные циклы; векторизованные циклы реализованы эффективно; расширение AVX512 не задействовано. Определены основные направления оптимизации: устранение дисбаланса в распределении работы между MPI-процессами и OpenMP-потоками; векторизация ранее не векторизованных циклов, а также применение AVX512. По направлению «Физика элементарных частиц» развивалась программа FIRE для редукции интегралов Фейнмана к мастер-интегралам. Разработан универсальный инструмент FUEL, позволяющий использовать различные вычислители для упрощения коэффициентов. Развивался альтернативный подход с использованием модулярной арифметики, в программу FIRE внедрен метод восстановления коэффициентов. С использованием разработанных программ исследована возможность представления высших радиационных поправок к ренорминвариантным величинам в КХД в виде разложения по степеням конформной аномалии. Аналитически вычислены в разложении по параметру размерностной регуляризации epsilon все мастер-интегралы для безмассовых четырехпетлевых форм-факторов. По направлению «Искусственный интеллект и автоматическая обработка текстов» разработаны нейросетевые модели с встроенными словарями оценочной лексики для улучшения качества определения таргетированной тональности, созданы новые датасеты (новостные тексты и сообщения пользователей в социальных сетях) с разметкой тональности и аргументации для обучения нейросетевых моделей. Проведено тестирование подходов к таргетированному анализу тональности на русском языке в рамках соревнования RuSentNE-2023, показавшее эффективность использования сложных ансамблей, комбинирующих модели типа BERT, проблемой которых является плохая переносимость. Сравнимые результаты показали вычислительно более простые подходы на основе метода prompt-tuning - автоматической настройки вопроса к языковой модели. Проведен анализ ошибок использованных моделей. По направлению «Суперкомпьютерный кодизайн моделей Земной системы» разработана вихреразрешающая модель атмосферного пограничного слоя (АПС). Модель для случая жидкой фазы описывает перенос капель дождя в виде двух моментов распределения частиц по размерам – счетной и массовой концентраций. Для описания твердой фазы атмосферной влаги вихреразрешающая модель дополнена прогностическими уравнениями для массовой концентрации снега и крупы. В вихреразрешающую модель добавлена возможность подключения моделей переноса излучения в атмосфере. Выполнены предварительные оценки чувствительности речного блока модели ИВМ РАН-МГУ к горизонтальному разрешению. Эксперименты для рек Северная Двина и Печора показали, что эффект от изменения горизонтального разрешения может значительно повлиять на речной сток и уменьшить ошибку воспроизведения сроков половодья. В области физики элементарных частиц в 2023 г. в программу FIRE были внедрены библиотеки, осуществляющие алгебраические преобразования коэффициентов, что позволяет решать сильно разреженную систему линейных уравнений большого размера с полиномиальными коэффициентами с целью сведения всех требуемых диаграмм к мастер-интегралам, а количество неизвестных может составлять несколько миллиардов, число интересующих величин - десяток тысяч, число простейших, к которым нужно свести - порядка сотни. Алгоритмы решения системы нужного размера неизвестны, вероятнее всего, их не существует, поскольку только при адаптации к специфике задачи можно выйти на нужный уровень производительности. Опыт развития программы FIRE создает возможности для перехода на качественно новый уровень разработок моделей Земной Системы. По направлению «Биоинформатика и моделирование живых систем» создана база участков связывания модуляторов функциональной активности белков/ферментов с метрикой схожести физико-химических свойств с целью поиска новых путей связывания лигандов и выявления их побочного действия. Продолжена разработка процедуры автоматизированного предсказания потери функции белков/ферментов при изменениях их структуры по данным секвенирования с использованием суперкомпьютерной вычислительной среды. Проведен биоинформатический анализ суперсемейств, содержащих ферменты человека с обнаруженными мутациями при патологических состояниях; выявленные функционально важные аминокислотные остатки включены в создаваемый набор данных для последующей аннотации результатов секвенирования. Разработана высокопроизводительная платформа компьютерного скрининга и молекулярного дизайна лекарственных препаратов на основе докинга и структурной фильтрации. Для эффективного применения таких подходов необходимы алгоритмы отбора перспективных соединений, развитие сдерживает недостаточная точность прогнозирования энергии образования комплексов белок-лиганд. Ключевым элементом разработанной платформы является алгоритм vsFilt, учитывающий специфические взаимодействия между белком-мишенью и модулятором. Алгоритм vsFilt, оптимизированный для анализа молекул, содержащих сульфогруппу, использован при поиске ингибиторов ферментов патогенных бактерий и вирусов: отборе наиболее эффективных соединений среди фурансульфонатов в качестве ингибиторов транскетолазы возбудителя туберкулеза и поиске ингибиторов нейраминидазы вируса гриппа в библиотеке структур, содержащих сульфонамидную группу, в качестве прототипов средств принципиально нового типа.
4 1 января 2024 г.-31 декабря 2024 г. Разработка и реализация принципов суперкомпьютерного кодизайна для развития сквозных цифровых технологий и создания высокопроизводительных вычислительных платформ для предсказательного моделирования и применения искусственного интеллекта: от микромира, до живых организмов и Земной системы
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".