ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
Цель исследования заключается в развитии подходов к идентификации неизвестных органических соединений с использованием баз данных масс-спектров электронной ионизации. Сопоставить эффективность известных алгоритмов библиотечного поиска и рассмотреть целесообразность использования дополнительно информации (например, молекулярной массы, брутто-формулы). Разработать математический подход, позволяющий устранять искажения масс-спектров (характерных для сканирующих приборов). Разработать математический подход, позволяющий оценить корректность и достоверность результатов библиотечного поиска.
Будет выявлен наиболее эффективный алгоритм библиотечного поиска (среди существующих в настоящее время). Будет определена вероятность проведения ошибочной идентификации, основанной на использовании поиска по базам данных масс-спектров электронной ионизации. Будет оценено влияние негативных эффектов, обусловленных искажением масс-спектров, зарегистрированных на склонах хроматографических пиков с использованием сканирующего прибора, на результаты идентификации неизвестных соединений. Будет разработан математический подход, позволяющий устранять искажения масс-спектров, зарегистрированных на склонах хроматографических пиков. Будет изучено влияние малоинтенсивных масс-спектральных пиков, а также пиков, имеющих низкие значения m/z, на результаты идентификации, основанной на поиске по базам данных. Будут оценены различия между масс-спектрами одних и тех же соединений, обусловленные условиями их регистрации. Будет рассмотрена целесообразность использования альтернативных методов анализа с целью получения дополнительной информации о неизвестном соединении (молекулярная масса, брутто-формула, точные значения m/z фрагментных пиков и др.). Будет разработан и реализован математический подход, позволяющий исследователям, не являющимся экспертами в области масс-спектрометрии, оценить корректность и достоверность идентификации, основанной на поиске по базам данных. Будет проведено сопоставление эффективности внутрилабораторных и общих баз данных масс-спектров электронной ионизации. Будет оценена целесообразность создания баз данных масс-спектров электронной ионизации высокого разрешения.
Установлено, что эффективность наиболее популярного алгоритма библиотечного поиска Identity (реализованного в программном обеспечении MS Search) не отличается статистически значимо от эффективности ряда новых алгоритмов, предложенных после 2010 года. Показано, что результаты идентификации, основанные на использовании одних только баз данных масс-спектров электронной ионизации, являются ложными в среднем в 28% случаев (если предположить, что масс-спектр идентифицируемого соединения присутствует в базе данных с вероятностью 50%). Показано, что использование дополнительной информации (молекулярной массы и элементного состава) незначительно увеличивает эффективность библиотечного поиска, однако позволяет существенно сократить число возможных кандидатов. Установлено, что даже сильные искажения масс-спектров (характерные для сканирующих приборов) незначительно влияют на эффективность поиска по базе данных, однако даже незначительные искажения (наблюдаемые при регистрации 80 точек на хроматографический пик) не позволяют применять линейные хемометрические методы для обработки данных. Проведены исследования в области интегрирования узких хроматографических пиков. Показано, что для симметричных хроматографических пиков ошибка интегрирования, обусловленная дискретизацией непрерывного сигнала, не превышает 0.1%, когда ширина пика у основания составляет 5 точек или более. Разработан новый математический алгоритм, позволяющий устранять искажения масс-спектров, наблюдаемые на склонах хроматографических пиков и характерные для сканирующих масс-спектрометров. Алгоритм основан на аппроксимации данных, что позволяет наряду с устранением искажений масс-спектров проводить сглаживание исходных данных. Разработана утилита для конвертации данных газовой хроматографии/масс-спектрометрии из формата NetCDF в CSV формат (что делает возможным проведение специализированной обработки данных с использованием стороннего программного обеспечения). При рассмотрении 600 соединений и более 3000 масс-спектров показано, что набор интенсивных (>10%) пиков в масс-спектрах электронной ионизации, зарегистрированных в различных условиях, практически полностью совпадает (наблюдаемые различия объясняются низким качеством некоторых спектров, представленных в базе данных). -Количественно оценено во сколько раз может измениться отношение интенсивностей двух масс-спектральных пиков, если масс-спектры зарегистрированы в неидентичных условиях. Разработан математический подход, позволяющий выявить случаи отсутствия соединения в используемой базе данных. Для случайной выборки соединений данный подход позволил правильно предсказать отсутствие соединения в базе данных в 30% случаев (при этом только для 1.3% соединений, в действительности присутствующих в базе данных, получен ошибочный ответ). При рассмотрении соединений, обладающих «уникальными» масс-спектрами, правильный прогноз был получен в 74% случаев. Установлено, что для соединений с молекулярной массой более 100 Да масс-спектральные пики со значением m/z ≤ 45 не оказывают значимого влияния на результаты библиотечного поиска. В случае соединений, в масс-спектрах которых присутствует 11 и более пиков с интенсивностью > 5%, исключение малоинтенсивных пиков из рассмотрения до определенного предела (0.8–2%) увеличивает эффективность библиотечного поиска. Показано, что существующие программы (ACD/MS Fragmenter и Mass Frontier), позволяющие на основании известных правил фрагментации предсказывать возможные фрагментные ионы, обладают низкой эффективностью, поскольку в ряде случаев генерируют большое число ионов и при этом объясняют менее 50% полного ионного тока. Показано, что в случае соединений, обладающих визуально неотличимыми масс-спектрами, внутрилабораторные базы данных превосходят общие базы данных по эффективности поиска. Предложен подход, позволяющий скорректировать интенсивности пиков в масс-спектре из общей базы данных и тем самым увеличить эффективность поиска.
грант РФФИ |
# | Сроки | Название |
1 | 1 июля 2016 г.-30 июня 2017 г. | Развитие способов идентификации компонентов сложных смесей органических соединений при использовании метода газовой хроматографии/масс-спектрометрии с электронной ионизацией |
Результаты этапа: Сопоставлена эффективность известных алгоритмов поиска по базам данных масс-спектров электронной ионизации. Помимо алгоритмов, реализованных в коммерчески доступном программном обеспечении (и рассмотренных нами ранее), рассмотрено несколько новых алгоритмов, описанных в литературе за последние 7 лет. Установлено, что алгоритм Identity (реализованный в программном обеспечении MSSearch (NIST)) не уступает в эффективности недавно предложенным алгоритмам библиотечного поиска. Учитывая широкое распространение алгоритма Identity, он будет широко использоваться при выполнении настоящего проекта. Определена вероятность проведения ошибочной идентификации с использованием алгоритма Identity. При рассмотрении случайной выборки соединений вероятность ошибочной идентификации, основанной только на поиске по базе данных масс-спектров электронной ионизации, составляет 28%. Разработан математический подход, позволяющий выявить случаи отсутствия правильного ответа в используемой базе данных и тем самым увеличить эффективность идентификации. Разработанный подход позволяет установить факт отсутствия масс-спектра в базе данных в 30% случаев. Проведена количественная оценка негативных эффектов, характерных для сканирующих масс-спектрометров и обусловленных искажением масс-спектров, зарегистрированных на склонах хроматографических пиков. Показано, что даже при высоких скоростях сканирования (доступных не на всех моделях приборов) применение известных математических методов выделения «чистых» масс-спектров во многих случаях не позволяет получить корректные результаты. Проведены исследования в области интегрирования узких хроматографических пиков. Разработан математический алгоритм, позволяющий устранять искажения масс-спектров, наблюдаемые на склонах хроматографических пиков и характерные для сканирующих масс-спектрометров. Работа алгоритма протестирована на обширном наборе экспериментальных данных. Разработана утилита для конвертации данных газовой хроматографии/масс-спектрометрии из формата NetCDF в CSV формат (что делает возможным проведение специализированной обработки данных с использованием стороннего программного обеспечения). | ||
2 | 1 июля 2017 г.-30 июня 2018 г. | Развитие способов идентификации компонентов сложных смесей органических соединений при использовании метода газовой хроматографии/масс-спектрометрии с электронной ионизацией |
Результаты этапа: Показано, что для соединений, молекулярная масса которых находится в диапазоне 101–250 Да, нижняя граница диапазона сканирования может быть увеличена от 27 до 45 без значимого ухудшения результатов библиотечного поиска. Если молекулярная масса соединения находится в диапазоне 251–400 Да, то исключение пиков, расположенных в области шкалы m/z от 27 до 70 даже увеличивает вероятность попадания правильного ответа на первую позицию в списке возможных кандидатов. Показано, что если в масс-спектре присутствует не более 10 пиков с интенсивностью >5%, то исключение пиков с интенсивностью всего 0.2% снижает вероятность попадания правильного ответа на первую позицию в списке возможных кандидатов. Если в масс-спектре присутствует 11 или более пиков с интенсивностью >5%, то исключение пиков с интенсивностью 1.4–2% увеличивает эффективность библиотечного поиска. При рассмотрении 600 соединений и более 3000 масс-спектров показано, что набор интенсивных (>10%) пиков в масс-спектрах электронной ионизации, зарегистрированных в различных условиях, практически полностью совпадает (наблюдаемые различия объясняются низким качеством некоторых спектров, представленных в базе данных). Количественно оценено во сколько раз может измениться отношение интенсивностей двух масс-спектральных пиков, если масс-спектры зарегистрированы в неидентичных условиях. Показано, что определение номинальной молекулярной массы или брутто-формулы незначительно увеличивает эффективность библиотечного поиска (вероятность попадания правильного ответа на первую позицию в списке возможных кандидатов увеличивается всего на 2.8 и 3.0% соответственно). С другой стороны, использование дополнительной информации (молекулярной массы, набора элементов или брутто-формулы) в качестве фильтра при библиотечном поиске позволяет существенно сократить число возможных кандидатов. | ||
3 | 1 июля 2018 г.-30 июня 2019 г. | Развитие способов идентификации компонентов сложных смесей органических соединений при использовании метода газовой хроматографии/масс-спектрометрии с электронной ионизацией |
Результаты этапа: Разработан математический подход, позволяющий выявить случаи отсутствия соединения в используемой базе данных. Для случайной выборки соединений данный подход позволил правильно предсказать отсутствие соединения в базе данных в 30% случаев (при этом только для 1.3% соединений, в действительности присутствующих в базе данных, получен ошибочный ответ). При рассмотрении соединений, обладающих «уникальными» масс-спектрами, правильный прогноз был получен в 74% случаев. Показано, что существующие программы (ACD/MS Fragmenter и Mass Frontier), позволяющие на основании известных правил фрагментации предсказывать возможные фрагментные ионы, обладают низкой эффективностью, поскольку в ряде случаев генерируют большое число ионов и при этом объясняют менее 50% полного ионного тока. Показано, что в случае соединений, обладающих визуально неотличимыми масс-спектрами, внутрилабораторные базы данных превосходят общие базы данных по эффективности поиска. Предложен подход, позволяющий скорректировать интенсивности пиков в масс-спектре из общей базы данных и тем самым увеличить эффективность поиска. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".