![]() |
ИСТИНА |
Войти в систему Регистрация |
ИПМех РАН |
||
Развитие компьютерных технологий открывает все новые возможности для решения вычислительно сложных задач компьютерной биологии. Лейтмотивом последних лет стала разработка GPU-ускорителей как эффективной альтернативы CPU при решении широкого спектра задач. Были сделаны первые шаги в сторону создания GPU-реализаций некоторых биологически ориентированных алгоритмов. Так, некоторые методы молекулярной динамики были частично реализованы на GPU и получили широкое распространение благодаря существенно более высокой скорости расчетов. Тем не менее, можно констатировать, что популярность классических CPU-реализаций алгоритмов в естественно-научной среде существенно выше спроса на GPU-версии. Издержки на обучение, установку и обновление GPU-приложений часто оказываются выше, чем положительный эффект от их использования, что связано со сложной организацией задач компьютерной биологии. Иными словами, в большинстве случаев с использованием GPU пытаются решают не те задачи, в которых этот ресурс может в полной мере раскрыть свой потенциал. Проведенные нами работы в рамках проекта РФФИ 14-07-00437 показали, что особенностью организации сложных вычислительных задач биоинформатики и молекулярного моделирования является многообразие входящих в них программных компонент, которые могут принципиально отличаться друг от друга по требованиям к аппаратной конфигурации вычислительной системы. Анализ сложных биологических данных представлен конвейером из последовательно запускаемых этапов, каждый из которых в свою очередь исполняется различными подпрограммами, решающими зависимые или независимые подзадачи. Организация вычислительного процесса в виде последовательных этапов позволяет подбирать оптимальную аппаратную конфигурацию для каждой отдельной его стадии. В этом контексте фундаментальный и практический интерес представляет поиск таких этапов в решении задач компьютерной биологии, реализация которых с использованием GPU была бы эффективной и открывала новые возможности для анализа возрастающих объемов биологических данных. Преимущество предлагаемого проекта заключается в том, что для решения поставленной задачи будут привлечены научные коллективы с опытом совместной работы в области применения параллельного программирования и суперкомпьютерного моделирования для решения задач биохимии. Объединение множественных профессиональных компетенций в рамках одного проекта позволит предложить новые решения ресурсоемких задач биоинформатики и молекулярного моделирования и разработать эффективные оригинальные GPU-реализации соответствующих перспективных алгоритмов.
The development of computer technologies opens up new opportunities for solving computationally complex problems in computer biology. The leitmotif of recent years has been the development of GPU accelerators as an effective alternative to CPU in solving a wide range of problems. The first steps towards the creation of GPU-implementations of some biologically oriented algorithms were made. Thus, some methods of molecular dynamics were partially implemented on the GPU and were widely used due to a much higher speed of calculations. Nevertheless, we can state that the popularity of classical CPU implementations of algorithms in the natural-scientific environment is much higher than the demand for the GPU-version. The costs of training, installing and updating GPU applications are often higher than the positive effect of their use, which is associated with the complex organization of computer biology tasks. In other words, in most cases using the GPU, they try to solve not the tasks in which this resource can fully open its potential. Our work within the framework of the RFBR project 14-07-00437 has shown that the complexity of the computational tasks of bioinformatics and molecular modeling is the variety of the software components included in them, which can fundamentally differ from each other in the requirements for the hardware configuration of the computer system. The analysis of complex biological data is represented by a pipeline of sequentially started stages, each of which in turn is executed by various subroutines that solve dependent or independent subtasks. Organization of the computational process in the form of successive stages allows you to select the optimal hardware configuration for each of its individual stages. In this context, it is of fundamental and practical interest to search for such steps in solving problems in computer biology, the implementation of which using the GPU would be effective and would open new opportunities for analyzing the growing volumes of biological data. The advantage of the proposed project is that scientific teams with experience of joint work in the field of parallel programming and supercomputer modeling for solving biochemistry problems will be involved to solve the task. The combination of multiple professional competencies within a single project will make it possible to offer new solutions to resource-intensive tasks of bioinformatics and molecular modeling and to develop effective original GPU implementations of relevant advanced algorithms.
МГУ имени М.В.Ломоносова | Координатор |
грант РФФИ |
# | Сроки | Название |
1 | 1 марта 2017 г.-31 декабря 2017 г. | Поиск новых решений ресурсоемких задач биоинформатики и молекулярного моделирования с использованием GPU-ускорителей |
Результаты этапа: Проведен анализ междисциплинарной литературы по теме GPU-реализаций программ в компьютерной биологии. Проанализированы семейства алгоритмов биоинформатики с точки зрения теоретической возможности и практической значимости их реализации на GPU и определены задачи, в которых эти алгоритмы применяются. Сформулированы фундаментальные принципы GPU-ориентированной реализации алгоритма MATT для построения парных выравниваний эволюционно родственных белков. Предложена консервативная модель оценки эффективности GPU-реализации алгоритма MATT, основанная на сравнении с максимально достижимой производительностью при исполнении в режиме общей памяти на классических процессорах. | ||
2 | 1 января 2018 г.-31 декабря 2018 г. | Поиск новых решений ресурсоемких задач биоинформатики и молекулярного моделирования с использованием GPU-ускорителей |
Результаты этапа: Продолжены работы по развитию параллельного алгоритма parMatt для построения множественного выравнивания структур белков. Предложена и реализована схема асинхронного парного выравнивания структур, проведены экспериментальные исследования предложенной схемы. Исследована возможность переноса вычислений алгоритма parMatt на графические ускорители. Проведен сравнительный анализ вычислительной эффективности и масштабируемости молекулярной динамики (МД), реализованной в пакете AMBER, на реальных биологических системах с применением классического силового поля FF14SB с 4-х центровой моделью воды TIP4P-Ew, а также нового многообещающего поля FF15IPQ с 3-х центровой моделью воды SPC/Eb – на GPU и CPU. Проведен анализ различных реализаций алгоритма молекулярного докинга на GPU и CPU. Показано, что GPU-ускорители способны существенно ускорить решение задачи докинга одного лиганда в один рецептор по сравнению с CPU. | ||
3 | 1 января 2019 г.-31 декабря 2019 г. | Поиск новых решений ресурсоемких задач биоинформатики и молекулярного моделирования с использованием GPU-ускорителей |
Результаты этапа: В рамках проекта были проанализированы ресурсозатратные задачи компьютерной биологии, основанные на использовании методов молекулярной динамики, докинга/скрининга, а также сравнительного биоинформатического анализа эволюционно родственных белков на различных уровнях структурной организации, изучена эффективность существующих программных решений, дана оценка ускорения на GPU по сравнению с CPU, проанализирована возможность повышения производительности решений на основе GPU. Оригинальность проведенного исследования заключалась, в том числе, в том, что сравнение эффективности решений на GPU проводилось не с одним ядром многоядерного процессора (как это часто делается в большинстве современных исследований), а с CPU в режиме MPI, что позволяет более реалистично оценивать возможности графических ускорителей на фоне максимальной производительности классических вычислителей. В работе были использованы оригинальные выборки реальных биологических данных, а также уникальное оборудование (в том числе, новый раздел «pascal» суперкомпьютера «Ломоносов-2», оснащенный Tesla P100 и Xeon Gold; кластер Polus, оснащенный Tesla P100 и Power8) и специализированное программное обеспечение для профилирования (в том числе, инструментальные средства Extrae и Paraver на оборудовании MareNostrum-IV суперкомпьютерного центра Барселоны). Показано, что использование GPU является обоснованным и востребованным на практике для решения таких задач компьютерной биологии, в которых вычислительная сложность одной стадии единого комплексного решения существенно преобладает над всеми остальными – за счет ускорения соответствующей стадии. Ярким примером такой ситуации являются задачи на основе метода молекулярной динамики, программное решение которой на GPU уже существует и открывает новые возможности для изучения конформационной подвижности белков. Напротив, GPU-решения в биоинформатике пока еще недостаточно развиты. С использованием оригинального подхода впервые предложено решение задачи сравнительного биоинформатического анализа совокупностей белков на уровне 3D-структур с использованием GPU. На основе детального исследования кода предложены пути усовершенствования алгоритма МАТТ для построения множественных выравниваний 3D-структур белков. В рамках создания нового решения задачи на GPU разработано программное обеспечение parMATT – гибридная MPI/pthreads/OpenMP ре-имплементация алгоритма МАТТ, первый в мире инструмент биоинформатики для построения множественного 3D-структурного выравнивания белков на суперкомпьютере с использованием классических ускорителей. С применением оригинального подхода выявлены наиболее ресурсоемкие стадии алгоритма МАТТ и разработана соответствующая, первая в мире в этом классе, ре-имплементация на GPU – программа cudaMATT. Сравнение cudaMATT и parMATT позволило наглядно продемонстрировать возможности графических ускорителей в сравнении с классическими CPU. Обе программы являются пионерными в области высокопроизводительных вычислений в структурной биоинформатике и будут полезны для решения широкого спектра задач: анализ данных о 3D-структурах белков в больших масштабах позволит более эффективно решать существующие задачи компьютерной биологии, а также искать новые подходы к изучению соотношения структура-функция в белках. Полученные результаты и разработанные оригинальные решения прошли обсуждение с профильными специалистами, а также представлены в среде ученых, работающих в области естественных наук: разработаны два ресурса в сети интернет для широкой демонстрации результатов проекта (https://biokinet.belozersky.msu.ru/parmatt и https://biokinet.belozersky.msu.ru/gpuinfo); результаты проекта представлены в виде четырех устных докладов на трех международных конференциях в различных областях науки (биоинформатики, суперкомпьютерного моделирования/компьютерным технологиям, а также общей биологии); результаты проекта опубликованы в рецензируемых научных изданиях, в том числе, в ведущем мировом журнале Bioinformatics издательства Oxford University Press (https://doi.org/10.1093/bioinformatics/btz224), что будет способствовать повышению статуса отечественной школы HPC и биоинформатики в России и за рубежом, и позволяет коллективу исполнителей заявить о своем лидерстве в новой и актуальной области мировой науки – использовании высокопроизводительных вычислений для систематического анализа суперсемейств белков. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".