ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
Предсказание индексов удерживания является одной из важных расчетных задач в газовой хроматографии. Наиболее часто эта проблема встает при обработке данных газовой хроматографии/масс-спектрометрии, когда результаты поиска по базе данных масс-спектров электронной ионизации представлены несколькими кандидатами, для которых недоступны экспериментальные значения индексов удерживания. В этом случае использование предсказанных индексов удерживания позволяет исследователям исключить наименее вероятные вещества. В данной работе мы реализовали на языке программирования Python с использованием библиотеки PyTorch [1] ранее описанные в литературе подходы к предсказанию индексов удерживания, основанные на использовании методов машинного и глубокого обучения. В оригинальной работе код был написан на языке Java [2], а нейросеть представляла собой объединение отдельных нейросетей и метода градиентного бустинга XGBoost [3] при помощи нескольких полносвязных слоев: CNN1D (сверточная сеть для одномерных данных), CNN2D (сверточная сеть для двухмерных данных), MLP (нейросеть с полносвязными слоями). В настоящей работе в качестве возможных вариантов улучшения ранее предложенной структуры нейросети были рассмотрены следующие модификации CNN1D: изменение параметров ядер сверточных слоев, применение разреженных сверточных слоев без изменения общей архитектуры нейросети, добавление сверточных слоев с различными параметрами ядра и слоев субдискретизации, изменение количества полносвязных слоев. Кроме этого, варьировали количество слоев и их параметры для MLP и CNN2D. Предварительная подготовка данных для нейросетей также была реализована на языке Python с использованием ряда библиотек. Для построения предсказательной модели использовали SMILES и индексы удерживания (отдельно для различных неподвижных фаз) из базы данных NIST/EPA/NIH RI 2017. Для расчета молекулярных дескрипторов (входных данных для MLP и XGBoost частей нейросети) использовали библиотеки RDKit [4] и Mordred [5], для CNN1D был повторен алгоритм, предложенный в оригинальном исследовании [2], с использованием One-Hot кодирования SMILES идентификаторов молекул. Литература 1. Paszke A. et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library. 2019. 2. Matyushin D.D., Buryak A.K. Gas Chromatographic Retention Index Prediction Using Multimodal Machine Learning // IEEE Access. 2020. Vol. 8. P. 223140–223155. 3. Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY, USA: ACM. 4. Landrum G. et al. rdkit/rdkit: 2021_09_4 (Q3 2021) Release. 2022. 5. Moriwaki H. et al. Mordred: a molecular descriptor calculator // J. Cheminformatics. 2018. Vol. 10, № 1. P. 1–14.