Аннотация:Система Octotron предназначена для постоянного автоматического контроля работы всех компонентов суперкомпьютерного комплекса. Данные поступают в систему от множества датчиков состояния суперкомпьютера и сравниваются с заранее заданными значениями или допустимыми шаблонами их изменения. В случае определения отказа компонента система вызывает реакцию – запускаются действия, направленные на минимизацию последствий аварии. За несколько лет эксплуатации системы Octotron в Суперкомпьютерном комплексе МГУ был накоплен существенный опыт, позволяющий проанализировать последовательности событий, случающихся в суперкомпьютерах,
и определять корневые причины сбоев.