Исследование накладных расходов систем мониторинга производительности суперкомпьютеров - НИР | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Руководитель НИР: Стефанов К.С.
Участники НИР: Жуматий С.А., Никитенко Д.А., Худолеева А.А., Швец П.А.
Подразделение: 4.08.Лаборатория параллельных информационных технологий
Срок исполнения: 1 января 2019 г. - 31 декабря 2021 г.
Номер договора (контракта, соглашения): 19-07-00940
Номер ЦИТИС: АААА-А19-119012590198-2
Тип: Фундаментальная
Приоритетное направление научных исследований: Фундаментальные проблемы высокопроизводительных вычислений и обработки данных
ПН России: Информационно-телекоммуникационные системы
Направление технологического прорыва России: Стратегические информационные технологии
Критическая технология России: Технологии и программное обеспечение распределенных и высокопроизводительных вычислительных систем
Рубрики ГРНТИ:
- 50.41.17 Системное программное обеспечение
Ключевые слова: мониторинг производительности, эффективность, суперкомпьютер, накладные расходы
efficiency, performance monitoring, supercomputer, overhead
Описание:
Исследование программ, выполняющихся на суперкомпьютерах, при помощи систем мониторинга производительности является методом исследования параллельных программ, получающим все более широкое распространение. При работе система мониторинга производительности влияет на исследуемую программу (из-за накладных расходов на работу самой системы мониторинга), что приводит к замедлению выполнения программы и, как следствие, к падению производительности. Однако вопрос об уровне влияния систем мониторинга производительности на время работы исследуемых программ, изучен мало. Еще менее исследованным является вопрос о том, как изменение конфигурации системы мониторинга производительности меняет уровень накладных расходов. Прямое исследование влияния систем мониторинга на время работы параллельных программ – запуск параллельной программы без системы мониторинга и совместно с ней, а затем сравнение результатов – требует больших вычислительных ресурсов, так как существенное замедление обычно наблюдается только при работе на большом числе вычислительных узлов. В рамках проекта мы предлагаем разработать инструментарий для оценки уровня накладных расходов, создаваемых системами мониторинга производительности. Этот инструментарий должен работать на малом числе вычислительных узлов, но по результатам его работы будет возможно делать предсказания о замедлении реальных параллельных программ, работающих на больших конфигурациях. Для этого мы проведем сопоставление результатов, полученных разработанным инструментарием, с прямым исследованием замедления типичных вычислительных ядер. На основе разработанного инструментария мы проведем исследование зависимости уровня накладных расходов системы мониторинга производительности от ее конфигурации (частота и состав снимаемых данных, способы передачи по сети). Также будут разработаны рекомендации по настройке систем мониторинга в зависимости от размера вычислительной системы и исследуемой параллельной программы.
Abstract:
An analysis of programs executed on supercomputers with performance monitoring systems becomes a popular method of analysis. A performance monitoring system affects the program being analyzed which leads to increase of a program runtime and to decrease in its performance accordingly. But the topic of the influence of performance monitoring system on the runtime of the program being analyzed is not studied well. The topic of how the configuration of a performance monitoring system changes its overhead is even less studied. Direct measuring of how performance monitoring system affects the runtime of parallel programs (comparing runtime of a parallel program with and without monitoring system) requires much computing resources as substantial decrease in performance is observed only for configuration with large number of compute nodes. We propose to develop a set of tools for evaluating the overhead of performance monitoring system. These tools should work on small number of compute nodes. With the results of these tools we should be able to predict the decrease of runtime of real parallel programs on large configurations. In order to achieve this we will match the results of our tools with the results of direct measuring of slowdown for typical parallel compute kernels. We plan to study the dependence of a performance monitoring system configuration on its overhead using the developed tools. Based on this study we will develop guidelines for configuring performance monitoring system for specific compute systems and analyzed programs.
Планируемые результаты:
Будет разработан инструментарий для оценки накладных расходов систем мониторинга производительности суперкомпьютеров, для работы которого не нужны большие (много узлов) вычислительные ресурсы. Будет предложен способ оценки влияния работы систем мониторинга производительности на работу реальных программ. Будет исследованы разные конфигурации систем мониторинга производительности (частота и набор снимаемых данных, способ передачи данных по сети и т.п.) и разные компоненты систем мониторинга (съем данных, предварительная обработка, передача по сети) с точки зрения уровня производимых накладных расходов. Полученные результаты позволять определять допустимые конфигурации систем мониторинга производительности суперкомпьютеров в зависимости от выполняемых программ и допустимого уровня влияния на производительность этих программ. Это, в свою очередь, даст возможность получать максимально детальные сведения о выполняемых на суперкомпьютере программах без снижения производительности этих программ ниже заданного уровня.
Научный задел:
Коллектив в течение многих лет выполняет работы, связанные с суперкомпьютерным комплексом Московского университета, включая его сопровождение и выполнение научных исследований, по суперкомпьютерной тематике. Члены коллектива имеют опыт как применения систем мониторинга для контроля отдельных подсистем суперкомпьютеров, так и разработки собственных систем мониторинга (Antmon, Parcon, DiMMon). Другое направление работы коллектива, которое подтолкнуло к формулировке данного проекта, проводилось в рамках проекта HOPSA, работы по которому выполняются в рамках совместного конкурса РФ-ЕС по 7 рамочной программе FP7-ICT-2011-EU-Russia. В рамках работ по проекту РФФИ № 13-07-00775 «Разработка принципов построения сверхмасштабируемых систем мониторинга программно-аппаратной среды суперкомпьютеров» была разработана динамическая распределенная система мониторинга DiMMon. Эта система способна менять в процессе работы параметры своего функционирования, включая период опроса датчиков, и набор и другие. Эта система будет применяться как основа для создания инструментария для проведения исследования в рамках данного проекта. В проекте РФФИ № 16-07-01121 «Разработка принципов построения адаптивных систем тонкого мониторинга суперкомпьютеров» были исследованы свойства датчиков, данные от которых используются для мониторинга производительности, с точки зрения влияния частоты съема данных на точность и полноту получаемой информации. Были выработаны предложения по адаптивному изменению частоты съема данных. В процессе работы над этим проектом стал очевиден пробел в исследованиях, до какого предела можно изменять частоту съема данных и как такие изменения отразятся на исследуемых программах. Закрыть этот пробел – одно из направлений работы по предлагаемому проекту.
Добавил в систему: Стефанов Константин Сергеевич

Источник финансирования НИР

грант РФФИ

Этапы НИР

#	Сроки	Название
1	1 января 2019 г.-31 декабря 2019 г.	Исследование накладных расходов систем мониторинга производительности суперкомпьютеров
Результаты этапа: Разработан инструментарий для оценки накладных расходов систем мониторинга производительности суперкомпьютеров, для работы которого не нужны большие (много узлов) вычислительные ресурсы. Опробованы существующие средства для измерения уровня шума операционной системы (показали плохую применимость) и разработаны дополнительные инструменты, основанные на замере времени выполнения коллективных операций. Предложен способ оценки влияния работы систем мониторинга производительности на работу реальных вычислительных ядер, в том числе для больших конфигураций (работа на большом количестве вычислительных узлов). Исследовано замедление работы реальных вычислительных ядер при работе системы мониторинга и предложен способ определения такого замедления для конкретных вычислительных ядер по данным, полученным при помощи разработанного инструментария для оценки уровня накладных расходов.
2	1 января 2020 г.-31 декабря 2020 г.	Исследование накладных расходов систем мониторинга производительности суперкомпьютеров
Результаты этапа: Исследовано распределения времени выполнения различных операций MPI в разных вариантах (количество процессов, объем данных для обработки), включая операцию MPI_Barrier. На основе полученных данных о распределении времени выполнения отдельных операций MPI предложена модель для определения замедления работы программ при изменении уровня шума.
3	1 января 2021 г.-28 декабря 2021 г.	Исследование накладных расходов систем мониторинга производительности суперкомпьютеров
Результаты этапа: Разработан инструментарий для оценки накладных расходов систем мониторинга производительности суперкомпьютеров, для работы которого не нужны большие (много узлов) вычислительные ресурсы. Предложен способ оценки влияния работы систем мониторинга производительности на работу реальных программ. Исследованы разные конфигурации систем мониторинга производительности с точки зрения уровня производимых накладных расходов. Полученные результаты позволяют определять допустимые конфигурации систем мониторинга производительности суперкомпьютеров.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Исследование накладных расходов систем мониторинга производительности суперкомпьютеровНИР

A study of the overhead produced by performance monitoring systems for supercomputers

Источник финансирования НИР

Этапы НИР

Прикрепленные к НИР результаты