Разработка новых способов идентификации растительного сырья путем обработки массивов данных масс-спектрометрического анализаНИР

Development of new methods for the identification of plant materials by mass spectrometric analysis data treatment

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 1 октября 2019 г.-30 сентября 2020 г. Разработка новых способов идентификации растительного сырья путем обработки массивов данных масс-спектрометрического анализа
Результаты этапа: Разработан алгоритм, позволяющий классифицировать экстракты различных растений и коммерческие образцы, содержащие их в своем составе. В рамках разработки алгоритма проведено сравнение различных методик устранения шума в данных масс-спектрометрического анализа. Для классификации образцов растительного сырья использованы различные методы машинного обучения (с учителем и без), и оценена их предсказательная способность. Апробация разработанного алгоритма проведена на небольшом сете данных и реальных объектах (экстрактах из женьшеня, абруса, солодки и женьшеневого чая).
2 1 октября 2020 г.-30 сентября 2021 г. Разработка новых способов идентификации растительного сырья путем обработки массивов данных масс-спектрометрического анализа
Результаты этапа: Целью второго этапа работы являлось выяснение возможностей и разработка аналитических подходов для проведения межвидовой классификации растительных материалов и выявления характеристических маркеров, на основе высокоэффективного хроматографического разделения с масс-спектрометрическим детектированием и методов машинного обучения без учителя. Была исследована интерпретация данных ВЭЖХ-МС с использованием алгоритмов многомерного статистического анализа для извлечения полезной химической информации и выявления кластеров похожих образцов. Модельный набор, содержащий 57 образцов листьев 19 растений семейства Зонтичные, был проанализирован в единых выбранных хроматографических условиях с помощью масс-спектрометрии высокого и низкого разрешения в режиме полного ионного сканирования в широком диапазоне. Сначала были разработаны схемы предобработки масс-спектрометрических данных обоих типов разрешения. Для данных низкого разрешения были выбраны оптимальные параметры сглаживания (фильтр Савицкого-Голея) и произведена интерполяция точек шкалы времен удерживания. Далее данные ВЭЖХ-МС низкого разрешения были объединены в один тензор с размерами 57×380×1200, а данные высокого разрешения в тензор размером 51×45×2580. Далее массивы обрабатывались двумя путями: с непосредственным применением тензорного разложения (PARAFAC) и с разверткой тензора и последующим применением различных двумерных хемометрических методов (PCA, ICA, NMF, UFS). Для метода PARAFAC для выбора количества компонентов использовалась следующая процедура: каждый набор данных был подвергнут разложению PARAFAC с числом компонент в диапазоне от 1 до 15. Для всех моделей были построены графики зависимости объясненной дисперсии, критерия corcondia от числа компонент. По этим графикам было выбрано оптимальное число компонент. Для PCA было принято решение взять за оптимальное количество компонент то число, которое будет достаточное для объяснения 95% дисперсии данных. Для определения числа компонент (источников) в ICA использовали метод ICA-by-block. Данные были разделены на 2 блока. Для каждого блока были рассчитаны модели ICA с числом компонент от 1 до 10. Затем модели двух блоков, рассчитанные с одинаковым числом компонент, сравнивались путем вычисления корреляции между каждой парой нагрузок. Было замечено, что после извлечения более 4 компонент график начинал падать, что означает, что корреляции между компонентами различных блоков становится ниже. Чтобы определить оптимальное число компонент для метода NMF (т.е. ранг новых матриц), была рассчитана остаточная сумма квадратов (RSS) и проанализирована ее зависимость от числа компонент. Оптимальное количество компонент определяется таким, что график RSS – число компонент показывает точку перегиба в этом месте. Когда число компонент NMF превышает оптимальное, то уменьшение RSS становится незначительным, и дисперсия, описанная дополнительными компонентами, может быть отнесена к случайному шуму. Для нашего набора данных был выбран метод отбора признаков без учителя. Он исключает признаки с дисперсией ниже заранее определенного порога, который в данном случае был средней дисперсией для всех признаков. Используя этот предел, было исключено 97% и 99% признаков из наборов данных ВЭЖХ-МСНР и ВЭЖХ-МСВР соответственно. Результаты применения алгоритмов сравнивались с точки зрения нескольких критериев: площадь под ROC-кривой (AUROC), значение критерия силуэта, время вычисления и количество шумовых компонент. На основе рассмотренных критериев методы PCA и UFS демонстрируют лучшие результаты как для данных МСНР, так и для МСВР и могут считаться наиболее подходящими методами для обработки данных ВЭЖХ-МС. Однако, можно считать, что все эти методы позволяют идентифицировать наиболее значимые маркеры, т.е. соответствующие им признаки, обладали наибольшей дисперсией в интенсивности в составе исследуемых образцов. Следующим этапом анализа данных было определение маркеров, которые оказались наиболее важными для кластеризации образцов. Из каждой модели были выбраны соединения с наибольшими весами в компонентах. Далее было получено пересечение всех этих списков сигналов. 23 потенциальных хемотаксономических маркера были предварительно идентифицированы путем ручной обработки МС/МС спектров и сопоставления с литературными данными. После тщательного изучения распространения идентифицированных биомаркеров был сделан вывод, что не было выявлено соединений, уникальных для какого-либо из родов. Чтобы выяснить, какие соединения зависят от условий произрастания, а какие соединения являются маркерами характеристичными для исследованных родов и видов растений, в будущем должны быть проведены более обширные исследования с большим количеством биологических повторностей каждого вида и большим количеством представителей каждого рода. Несмотря на то, что предложенные подходы в целом могут быть применены для такого исследования, следует отметить, что для этой конкретной задачи методы обучения с учителем могут повысить информативность классификации. На заключительном этапе, строили таксономические деревья, используя результаты применения вышеперечисленных методов кластеризации. Эти деревья сравнивали по их близости к молекулярно-филогенетическому древу. Следует отметить, что деревья, полученные на основе данных ВЭЖХ-МС, показывают различия в химическом составе, которые не коррелируют с результатами молекулярно-филогенетического анализа растений. Было достаточно трудно оценить сходства деревьев визуально или с помощью диаграмм t-SNE, поэтому для этой задачи был предложен подход, который включает в себя вычисление попарных расстояний между всеми образцами и построение матриц расстояний. В качестве количественной характеристики была выбрана попиксельно рассчитанная среднеквадратичная ошибка (СКО), а вместо значений пикселей исходные значения расстояния в матрицах. Ошибки, вычисленные этим методом, сравнивали между собой и наименьшее значение было получено для метода UFS (0.105 и 0.144 для данных ВЭЖХ-МСНР и ВЭЖХ-МСНР, соответственно). Разработанные в ходе работы методы и алгоритмы не настроены на отдельные группы соединений, присутствующие в исследованных экстрактах. Работа велась в режимах сканирования с широким варьированием органического компонента в подвижной фазе, что позволяет осуществить наиболее полный охват разделяемых и определяемых методом ОФ ВЭЖХ-МС компонентов. В совокупности с разработанными алгоритмами обработки «сырых» данных и примененными методами машинного обучения без учителя, предложенный подход может быть распространен на анализ образцов не только растительного происхождения.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".