Исследование аномалий в потоках задач для повышения эффективности работы больших суперкомпьютерных комплексовНИР

Research of anomalies in the task flow for optimizing supercomputer efficiency

Источник финансирования НИР

грант РФФИ

Этапы НИР

# Сроки Название
1 1 января 2016 г.-31 декабря 2016 г. Исследование аномалий в потоках задач для повышения эффективности работы больших суперкомпьютерных комплексов
Результаты этапа: 1. Выполнен обзор существующих решений, направленных на анализ эффективности выполнения потока суперкомпьютерных приложений с помощью методов машинного обучения. Данный обзор не выявил работ на данную тему, однако было найдено достаточно много смежных исследований, результаты которых помогли определить направление работ по нашему проекту. 2. Выполнено качественное определение понятия аномального поведения суперкомпьютерного приложения и определены типы аномального поведения. 3. Сформулированы функциональные требования к разрабатываемым методам классификации аномалий, а также описаны условия, в которых должны работать данные методы. 4. Проведено исследование методов выделения аномалий на основе анализа отдельных динамических характеристик. Полученный опыт показал, что анализ отдельных характеристик плохо подходит для решения поставленной задачи, поскольку в каждом случае классификации учитывается только небольшая часть данных по некоторой конкретной характеристике, и не учитывается их взаимосвязь. Поэтому было решено перейти к анализу множества характеристик. 5. Проведено исследование методов выделения аномальных задач («посмертный» анализ) на основе совместного анализа множества характеристик, которые показали, что алгоритмы обучения с учителем хорошо подходят для решения данной задачи. В результате проведенного совместного анализа множества характеристик был разработан метод на основе алгоритма Random Forest, который определяет принадлежность задачи к одному из трех классов – аномальная, подозрительная или нормальная задача. Обучение проводилось на реальных задачах, выполнявшихся на суперкомпьютере «Ломоносов». 6. Проведен анализ ошибок с целью повышения точности разработанного метода. На основе данного анализа был осуществлен набор оптимизаций разработанного метода. В частности, для более явного разделения классов по значениям характеристик был выделен набор производных характеристик, что позволило повысить точность. 7. На основе разработанного метода был реализован программный прототип, который успешно апробирован на суперкомпьютере «Ломоносов». Данный прототип периодически выполняет анализ потока выполненных задач и выделяет новые аномальные и подозрительные запуски. Каждые сутки отчет с результатами отправляется по электронной почте администраторам системы. 8. Для облегчения процесса составления обучающего набора, для анализа корректности работы инструмента и для удобного отображения полученных результатов был разработан web-интерфейс, позволяющий визуализировать различные аспекты поведения потока задач. В рамках данного интерфейса, в частности, был опробован метод оперативной классификации еще выполняющихся задач, который показал применимость разработанного подхода для работы в режиме реального времени. 9. В результате апробации разработанного инструмента была собрана статистика за 1.5 месяца работы суперкомпьютера. За это время было обнаружено около 250 задач, которые выполнялись с аномально низкой эффективностью.
2 1 января 2017 г.-31 декабря 2017 г. Исследование аномалий в потоках задач для повышения эффективности работы больших суперкомпьютерных комплексов
Результаты этапа: 1. Разработан метод выделения фрагментов задач для проведения анализа в рамках отдельных запусков. Данный метод определяет резкие изменения в поведение программы, что позволяет выделять логические этапы работы программы. 2. Проведено исследование существующих подходов к анализу и классификации временных рядов с целью оценки их применимости для выделения аномальных фрагментов задач. 3. На основе изученных подходов разработан метод обнаружения аномальных фрагментов, возникающих в рамках отдельного запуска. Данный метод использует разработанный способ выделения интервалов; для классификации применяется модифицированный алгоритм на основе Random Forest, разработанный на прошлом этапе. Для повышения его точности был проведен ряд работ: - составлен новый обучающий набор, состоящий из вручную классифицированных интервалов; - проведена тонкая настройка параметров работы классификатора; - осуществлен поиск оптимального набора характеристик с помощью методов дискриминантного анализа. 4. Предложен метод классификации задач на основе результатов классификации интервалов. Проведенные работы позволили повысить точность классификации задач с 0.835 (на прошлом этапе) до ~0.95. 5. Разработанный метод поиска аномального поведения был реализован и апробирован на реальных данных в Суперкомпьютерном центре МГУ. Качество работы данного метода было проверено на новых, еще не классифицированных ранее задачах. В течение 10 дней работы классификатор обнаружил 190 подозрительных и 64 аномальных задачи, которые затем были проверены вручную. В результате точность классификации составила 0.98 на аномальных и 0.95 на подозрительных задачах. 6. Был проведен полномасштабный анализ реальных данных, собранных с весны этого года. Всего было обнаружено 6000+ аномальных и подозрительных задач, которые был запущены 70+ пользователями суперкомпьютера. 7. Проведено исследование корреляций между поведением различных динамических характеристик. Для этого был проведен визуальный анализ линейной корреляции для всех задач и отдельно по наиболее активным пользователям, а также анализ корреляции на основе критерия Фишера.
3 1 января 2018 г.-31 декабря 2018 г. Исследование аномалий в потоках задач для повышения эффективности работы больших суперкомпьютерных комплексов
Результаты этапа: 1. Завершена адаптация разработанных методов обнаружения аномального поведения для работы с выполняющимися задачами, для этих целей реализован новый метод на основе нейронных сетей. Разработан новый обучающий набор, который позволил более точно определять аномальное поведение задач. 2. Реализовано оповещение пользователей о найденных аномальных приложениях. Это выполнено в рамках системы организации работы суперкомпьютеров Октошелл, что позволяет пользователям оперативно отслеживать, какие из выполняющихся (или уже выполненных) задач обладают аномальным поведением. На данный момент эта реализация проходит апробацию на суперкомпьютере Ломоносов-2. 3. Проведено более детальное изучение корреляций между динамическими характеристиками. Проведен анализ корреляций для отдельных пользователей и типов задач, и это позволило выявить определенные зависимости между поведением характеристик, при этом было обнаружено, что зачастую для разных пользователей эти корреляции противоположны. Чаще всего зависимости встречаются между частотами кэш-промахов в память разного уровня, при этом характеристики загрузки ЦПУ коррелируют с другими характеристиками реже остальных. 4. Исследовано и определено понятие аномального поведения в профиле потока задач. Описаны методы для обнаружения подобных аномалий, некоторые из которых были апробированы на реальных данных суперкомпьютера Ломоносов-2. В частности, исследованы типы аномального поведения профиля задач на основе текущего «снимка» состояния суперкомпьютера, а также на основе данных об аномальных приложениях, полученных с помощью разработанных ранее методов. 5. Завершена программная реализация всех разработанных методов, проведена масштабная апробация программного решения на суперкомпьютере Ломоносов-2. Выполнены оценки производительности полученного решения. 6. Разработана методика применения предложенного метода обнаружения аномалий на других суперкомпьютерах, которая описана в виде алгоритма действий, которые необходимо предпринять для портирования разработанного решения.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".