Прогнозирование активности ингибиторов Mpro SARS-CoV-2 на основе ансамблевого докинга и машинного обученияПрогнозирование активности ингибиторов Mpro SARS-CoV-2 на основе ансамблевого докинга и машинного обучениятезисы доклада
Аннотация:За время пандемии COVID-19 были разработаны вакцины и лекарства, действующие на SARS-CoV-2, но разработка более селективных и эффективных противовирусных препаратов остается актуальной проблемой. Одной из наиболее перспективных мишеней для создания противокоронавирусных лекарств является протеаза Mpro [1]. Объем доступных структурных данных позволяет наиболее эффективно использовать метод ансамблевого докинга, в рамках которого выбор перспективных соединений производится на основе оценок результатов докинга в различные структуры одного белка.Целью нашей работы была разработка метода виртуального скрининга ингибиторов протеазы Mpro SARS-CoV-2 на основе ансамблевого докинга и машинного обучения. Модель машинного обучения используется для ранжирования результатов докинга.В качестве обучающей выборки использовалась библиотека из 6897 соединений с экспериментально определенным процентом ингибирования Mpro протеазы SARS-CoV-2 при концентрации 20 мкМ [2]. Соединения с процентом ингибирования более 50% были отнесены к активным, таким образом соотношение активных соединений к неактивным составило 0,034. Ансамбль структур протеазы 3CLpro SARS-CoV-2 был составлен из зрелых, неокисленных, полностью разрешенных структур, депонированных в PDB до января 2022, которые имели самое высокое попарное среднеквадратичное отклонение всех атомов между конформациями остатков активного центра. В ансамбль были выбраны шесть структур.Обучающая выборка состояла из структур лучших белково-лигандных комплексов, полученных путем докинга соединений с известной активностью в структуры ансамбля с помощью DOCK6.9. Векторное описание комплекса было выполнено с использованием фингерпринтов взаимодействия, характеризующих тип контакта между атомами лиганда и ближайшими атомами белка. Различные модели машинного обучения (случайный лес, градиентный бустинг,SVM, глубокое обучение) были построены для классификации активных и неактивных молекул на векторных описаниях комплексов лиганд-белок и процентах ингибирования протеазы Mpro лигандом. Наилучший результат по AUC и ROC-кривым показала модель случайного леса с AUC 0,79 на тестовом наборе данных, однако все модели характеризовались точностью (precision) < 0.2, что указывает на большое количество ложноположительных результатов. Продемонстрировано, что в рамках выборки, использованной для обучения и тестирования, применение машинного обучения не приводит к улучшению качества классификации относительно обычного ансамблевого докинга.Исследование выполнено при поддержке Некоммерческого фонда содействия развитию науки и образования «ИНТЕЛЛЕКТ».Академические лицензии на программное обеспечение любезно предоставлены компаниями Cresset и Chemaxon.1. Zakharova M. Yu. et al. Front. Pharmacol.. 2021. (12). C. 773198.2. Kuzikov M. et al. ACS Pharmacol. Transl. Sci. 2021. № 3 (4). C. 1096–1110.