Развитие комбинированных методов молекулярного моделирования и машинного обучения (НИВЦ)НИР

Development of combined molecular modeling and machine learning approaches (RCC)

Источник финансирования НИР

Правительство Российской Федерации, Программа развития Московского университета

Этапы НИР

# Сроки Название
1 1 августа 2023 г.-31 декабря 2023 г. Развитие комбинированных методов молекулярного моделирования и машинного обучения (НИВЦ)
Результаты этапа: Для разработки сверточной нейронной сети, позволяющей определять наличие активации субстрата ферментом был проведен отбор модельных систем, состоящий из гидролаз различных классов. К ним относились цинк-зависимые ферменты и цистеиновая гидролаза. Были выбраны матриксная металлопротеиназа второго типа MMP-2, содержащая один катион цинка в активном центре фермента и каталитическую молекулу воды; металло-бета-лактамаза NDM-1, в активном центре которой располагается два катиона цинка и гидроксид-анион в качестве каталитической частицы, цистеиновая протеаза – основная протеаза вируса SARS-CoV2, отличающаяся от предыдущих систем тем, что нуклеофильную атаку проводит атом серы, а не атом кислорода. Для всех выбранных систем были проведены расчёты методом классической молекулярной динамики и молекулярной динамики с потенциалами КМ/ММ. После этого для фрагмента активного центра, содержащего карбонильную группу субстрата и нуклеофильную частицу, проводился расчёт карт лапласиана электронной плотности, которые использовались впоследствии для анализа с помощью сверточной нейросети. Карты лапласиана электронной плотности строились с минимальным количеством информации, а именно только изолиниями, соответствующими нулевому значению. В рамках данного этапа работы была разработана нейронная сеть, позволяющая проводить бинарную классификацию на состояния, в которых произошла / не произошла активация субстрата ферментом. Варьирование параметров нейросети позволило увеличить точность распознавания до 99.2 %. Для поиска возможных конформаций органических молекул на данном этапе работы был проанализирован ряд существующих в литературе методов глобальной оптимизации на основе роевого интеллекта. Для этого сначала была проведена работа по проверке возможности нахождения рассмотренными методами глобального минимума на поверхности потенциальной энергии. Далее была проведена оценка времени работы алгоритмов глобальной оптимизации на основе роевого интеллекта. Наилучшие результаты были получены для эволюционного алгоритма метода пчелиного роя (ArtificialBeeColony), который способен конкурировать с наилучшим на данный момент методом TPE [Andreadi, Zankov, Karpov, Mitrofanov, 2022]. Для реализации данной части работы был написан программный код, реализующий модель пчелиного роя для решения задачи оптимизации, а также полуэмпирический квантово-химический метод xtb (GFN2-xTB) [Bannwarth, Ehlert, Grimme, 2019], предлагающий быструю оценку энергии конформации системы с высокой точностью. Параллельно с этим была рассмотрена принципиальная возможность определения локальных минимумов на поверхности потенциальной энергии с использованием выбранного эволюционного подхода. Для этого после нахождения глобального минимума алгоритм запускался заново, однако уже с использованием дополнительной функции «штрафа», позволяющей избегать повторного выбора глобального минимума. Для белка EYFP семейства зеленого флуоресцентного белка проведены молекулярно-динамические расчеты с комбинированными потенциалами квантовой механики/молекулярной механики в каноническом NPT (p = 1 атм, T =300 K) ансамбле. Для набора кадров из молекулярно-динамической траектории рассчитаны изменения дипольного момента при возбуждении (Δμ), для которого известна квадратичная взаимосвязь с изменением разности энергий между основным и возбужденным электронным состояниями. Квантово-механическая подсистема описывалась методом функционала электронной плотности PBE0-D3/сс-pvdz в основном электронном состоянии, при расчёте вертикальных электронных переходов использовался нестационарный вариант метода функционала электронной плотности в варианте wB97X-D3/def2-SVP. С помощью методов регрессионного анализа и метода случайного леса построены модели расчета значений Δμ исходя из геометрических характеристик хромофора. Полученные модели хорошо предсказывают значения изменения дипольного момента при возбуждении. При этом показано, что для расчета значений Δμ по результатам молекулярной динамики недостаточно использовать только значения длин мостиковых связей в хромофоре. В минимальный набор данных для рассматриваемого белка также необходимо включать связи, соседние с мостиковыми. По результатам работы принята к публикации статья "Определение изменения дипольного момента при возбуждении в хромофоре зеленого флуоресцентного белка из траекторий молекулярной динамики с потенциалами км/мм методами машинного обучения" в Журнал физической химии. Разработан общедоступный WEB-сервис, позволяющий определять наличие активации атома углерода в sp2 гибридном состоянии в органических соединениях. На данном этапе сервис позволяет определять активацию субстратов, содержащих карбонильную группу в гидролазах, однако может быть использован и для обычных органических реакций, начинающихся с нуклеофильного присоединения. Сервис доступен по адресу: https://lcc.chem.msu.ru/eniad/checkreactivity.php. В результате проведенных работ показано, что использование метода глобальной оптимизации геометрии молекул, основанного на роевом интеллекте и учете внутримолекулярных параметров, таких как торсионные (двугранные) углы между атомами, можно эффективно использовать для прогнозирования как изолированных конформеров в газовой фазе, так и конформации молекул в периодических молекулярных кристаллах. Предложенный в исследовании алгоритм искусственного интеллекта по сравнению с другими 15 алгоритмами позволяет наиболее эффективно осуществлять поиск устойчивых конформеров органических катионов, учитывая все возможные варианты геометрии и основываясь на поиске глобального минимума энергии. Кроме того, в результате исследования впервые показана эффективная работа алгоритма роевого интеллекта для предсказания не только конформации молекул в газовой фазе, но и в периодических молекулярных кристаллах. Результаты работы алгоритма апробированы на экспериментальных базах данных о конформациях молекул в газовой фазе и возможных полиморфных модификациях кристаллических структур, расшифрованных экспериментально. Таким образом, в результате выполнения плана работ текущего этапа проекта, несмотря на ограниченный набор верификационных данных по органическим молекулам, успешно решена задача поиска наиболее энергетически выгодной геометрии молекул как в газовой фазе, так и в органических кристаллах. Данная работа станет важным шагом на пути к решению открытого вопроса о предсказанию законов упаковки органических молекул в кристаллах. По результатам выполненной работы подготовлена рукопись "Artificial bees collect diverse conformers of small organic molecules" (авторы A. Smirnova, M. Yablonskiy, E. Marchenko, V. Korolev, N. Andreadi, A. Mitrofanov) и депонирована на arxiv репозитории.
2 1 января 2024 г.-31 декабря 2024 г. Развитие комбинированных методов молекулярного моделирования и машинного обучения (НИВЦ)
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".