ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
В ходе проекта будет разработан алгоритм, позволяющий различать и классифицировать экстракты растений различных видов путем обработки массивов данных масс-спектрометрического анализа. Будут применены статистические методы обработки для выявления уровня базовой линии и устранения шума в масс-хроматограммах, тензорные разложения для уменьшения размерности массивов, машинное обучение для распознавания и классификации образцов. Описанный алгоритм планируется проверить на большом числе образцов, причем эксперимент планируется проводить в различных хроматографических условиях для оценки устойчивости работы метода. Разработанный подход будет возможно применить к объектам другой природы.
During this project an algorithm that allows distinguishing and classifying of various types plant extracts by mass spectrometric data treatment will be developed. It is planned to apply statistical methods to identify the baseline level and eliminate noise in mass chromatograms. Tensor transformation will be used to reduce the dimension of arrays and machine learning will be applied for pattern recognition and classification. Described algorithm is planned to be tested on a large number of samples, and the experiment is planned to be carried out in different chromatographic conditions in order to evaluate the stability of the method. Developed approach could be applied to objects of a different nature.
В ходе проекта будет разработан алгоритм, позволяющий классифицировать экстракты различных растений и коммерческие образцы, содержащие их в своем составе. В рамках разработки алгоритма будет проведено сравнение различных методик устранения шума в данных масс-спектрометрического анализа. Поскольку данные такого типа имеют трехмерных вид, то будут применены несколько методов тензорного разложения для уменьшения размерности таких массивов. Для классификации образцов растительного сырья будут использованы различные методы машинного обучения (с учителем и без), и будет оценена их предсказательная способность. По результатам данного эксперимента для конечного вида алгоритма будут выбраны те подходы, которые покажут лучшие результаты. По итогам первого этапа планируется опубликовать статью, содержащую описание этого алгоритма и его апробацию на небольшом сете данных и реальных объектах (например, на экстрактах чая). Далее планируется создание базы ВЭЖХ-МС данных по различным видам растений, полученных в различных условиях. Будут предложены способы устранения помех, вызванных варьированием условий эксперимента, например, изменения программы градиентного элюирования, скорости потока, температуры колонки. Для соотнесения хроматографических пиков будут применены уже существующие подходы. Полученный массив будет обработан созданным на первом этапе алгоритмом. На основе массива данных будет оценена стабильность работы этого подхода. После этого будет проведен эксперимент по сбору данных об объектах другой природы. Полученные массивы также будут проанализированы с помощью предложенного алгоритма, будут установлены границы универсальности его работы. По итогам второго этапа планируется опубликовать две статьи, одна будет посвящена обзору статистических методов и оценке их работы, а вторая будет представлять результаты экспериментов. Результаты первого и второго этапов будут представлены на двух международных и двух всероссийских конференциях.
В диссертации научного руководителя была проведена разработка алгоритма классификации гинсенозидов (компонентов женьшеня) разных типов по m/z сигналам из паттернов фрагментации. В продолжение этой тематики было проведено исследование по групповому распознаванию компонентов в растительных экстрактах и продуктах на их основе путем построения и сравнения хромато-масс-спектрометрических профилей. В ходе дипломной работы Туровой П.Н. был предложен алгоритм, позволяющий проводить количественный анализ многокомпонентных систем с использованием факторов пересчета. В рамках этого исследования была проведена всесторонняя проверка предложенной методики на устойчивость к изменению различных экспериментальных параметров, статистическая оценка предложенных факторов пересчета. Результаты работы опубликованы в статьях: Совместно с аспиранткой Туровой П.Н. были разработаны различные способы дискриминации растительного сырья, в зависимости от наличия и числа биомаркеров. Данный подход можно считать направленным скринингом образцов растительного сырья.
грант РФФИ |
# | Сроки | Название |
1 | 1 октября 2019 г.-30 сентября 2020 г. | Разработка новых способов идентификации растительного сырья путем обработки массивов данных масс-спектрометрического анализа |
Результаты этапа: Разработан алгоритм, позволяющий классифицировать экстракты различных растений и коммерческие образцы, содержащие их в своем составе. В рамках разработки алгоритма проведено сравнение различных методик устранения шума в данных масс-спектрометрического анализа. Для классификации образцов растительного сырья использованы различные методы машинного обучения (с учителем и без), и оценена их предсказательная способность. Апробация разработанного алгоритма проведена на небольшом сете данных и реальных объектах (экстрактах из женьшеня, абруса, солодки и женьшеневого чая). | ||
2 | 1 октября 2020 г.-30 сентября 2021 г. | Разработка новых способов идентификации растительного сырья путем обработки массивов данных масс-спектрометрического анализа |
Результаты этапа: Целью второго этапа работы являлось выяснение возможностей и разработка аналитических подходов для проведения межвидовой классификации растительных материалов и выявления характеристических маркеров, на основе высокоэффективного хроматографического разделения с масс-спектрометрическим детектированием и методов машинного обучения без учителя. Была исследована интерпретация данных ВЭЖХ-МС с использованием алгоритмов многомерного статистического анализа для извлечения полезной химической информации и выявления кластеров похожих образцов. Модельный набор, содержащий 57 образцов листьев 19 растений семейства Зонтичные, был проанализирован в единых выбранных хроматографических условиях с помощью масс-спектрометрии высокого и низкого разрешения в режиме полного ионного сканирования в широком диапазоне. Сначала были разработаны схемы предобработки масс-спектрометрических данных обоих типов разрешения. Для данных низкого разрешения были выбраны оптимальные параметры сглаживания (фильтр Савицкого-Голея) и произведена интерполяция точек шкалы времен удерживания. Далее данные ВЭЖХ-МС низкого разрешения были объединены в один тензор с размерами 57×380×1200, а данные высокого разрешения в тензор размером 51×45×2580. Далее массивы обрабатывались двумя путями: с непосредственным применением тензорного разложения (PARAFAC) и с разверткой тензора и последующим применением различных двумерных хемометрических методов (PCA, ICA, NMF, UFS). Для метода PARAFAC для выбора количества компонентов использовалась следующая процедура: каждый набор данных был подвергнут разложению PARAFAC с числом компонент в диапазоне от 1 до 15. Для всех моделей были построены графики зависимости объясненной дисперсии, критерия corcondia от числа компонент. По этим графикам было выбрано оптимальное число компонент. Для PCA было принято решение взять за оптимальное количество компонент то число, которое будет достаточное для объяснения 95% дисперсии данных. Для определения числа компонент (источников) в ICA использовали метод ICA-by-block. Данные были разделены на 2 блока. Для каждого блока были рассчитаны модели ICA с числом компонент от 1 до 10. Затем модели двух блоков, рассчитанные с одинаковым числом компонент, сравнивались путем вычисления корреляции между каждой парой нагрузок. Было замечено, что после извлечения более 4 компонент график начинал падать, что означает, что корреляции между компонентами различных блоков становится ниже. Чтобы определить оптимальное число компонент для метода NMF (т.е. ранг новых матриц), была рассчитана остаточная сумма квадратов (RSS) и проанализирована ее зависимость от числа компонент. Оптимальное количество компонент определяется таким, что график RSS – число компонент показывает точку перегиба в этом месте. Когда число компонент NMF превышает оптимальное, то уменьшение RSS становится незначительным, и дисперсия, описанная дополнительными компонентами, может быть отнесена к случайному шуму. Для нашего набора данных был выбран метод отбора признаков без учителя. Он исключает признаки с дисперсией ниже заранее определенного порога, который в данном случае был средней дисперсией для всех признаков. Используя этот предел, было исключено 97% и 99% признаков из наборов данных ВЭЖХ-МСНР и ВЭЖХ-МСВР соответственно. Результаты применения алгоритмов сравнивались с точки зрения нескольких критериев: площадь под ROC-кривой (AUROC), значение критерия силуэта, время вычисления и количество шумовых компонент. На основе рассмотренных критериев методы PCA и UFS демонстрируют лучшие результаты как для данных МСНР, так и для МСВР и могут считаться наиболее подходящими методами для обработки данных ВЭЖХ-МС. Однако, можно считать, что все эти методы позволяют идентифицировать наиболее значимые маркеры, т.е. соответствующие им признаки, обладали наибольшей дисперсией в интенсивности в составе исследуемых образцов. Следующим этапом анализа данных было определение маркеров, которые оказались наиболее важными для кластеризации образцов. Из каждой модели были выбраны соединения с наибольшими весами в компонентах. Далее было получено пересечение всех этих списков сигналов. 23 потенциальных хемотаксономических маркера были предварительно идентифицированы путем ручной обработки МС/МС спектров и сопоставления с литературными данными. После тщательного изучения распространения идентифицированных биомаркеров был сделан вывод, что не было выявлено соединений, уникальных для какого-либо из родов. Чтобы выяснить, какие соединения зависят от условий произрастания, а какие соединения являются маркерами характеристичными для исследованных родов и видов растений, в будущем должны быть проведены более обширные исследования с большим количеством биологических повторностей каждого вида и большим количеством представителей каждого рода. Несмотря на то, что предложенные подходы в целом могут быть применены для такого исследования, следует отметить, что для этой конкретной задачи методы обучения с учителем могут повысить информативность классификации. На заключительном этапе, строили таксономические деревья, используя результаты применения вышеперечисленных методов кластеризации. Эти деревья сравнивали по их близости к молекулярно-филогенетическому древу. Следует отметить, что деревья, полученные на основе данных ВЭЖХ-МС, показывают различия в химическом составе, которые не коррелируют с результатами молекулярно-филогенетического анализа растений. Было достаточно трудно оценить сходства деревьев визуально или с помощью диаграмм t-SNE, поэтому для этой задачи был предложен подход, который включает в себя вычисление попарных расстояний между всеми образцами и построение матриц расстояний. В качестве количественной характеристики была выбрана попиксельно рассчитанная среднеквадратичная ошибка (СКО), а вместо значений пикселей исходные значения расстояния в матрицах. Ошибки, вычисленные этим методом, сравнивали между собой и наименьшее значение было получено для метода UFS (0.105 и 0.144 для данных ВЭЖХ-МСНР и ВЭЖХ-МСНР, соответственно). Разработанные в ходе работы методы и алгоритмы не настроены на отдельные группы соединений, присутствующие в исследованных экстрактах. Работа велась в режимах сканирования с широким варьированием органического компонента в подвижной фазе, что позволяет осуществить наиболее полный охват разделяемых и определяемых методом ОФ ВЭЖХ-МС компонентов. В совокупности с разработанными алгоритмами обработки «сырых» данных и примененными методами машинного обучения без учителя, предложенный подход может быть распространен на анализ образцов не только растительного происхождения. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".