ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
Последние 15 лет ознаменовались взрывным ростом объемов данных небесных обзоров – изображений звездного неба, формируемых телескопами в широком диапазоне волн: от рентгеновских до радио, и каталогов объектов, обнаруженных на этих изображениях. 2 млн. небесных объектов опубликованы в 1990 году (APM), 300 млн. в 2005 (SDSS), несколько млрд. объектов в 2015-2018 гг. (PanSTARRS) и около 30 млрд. галактик в 2020х (LSST). Аналогичным образом обстоят дела с динамикой роста объемов данных. SDSS – 20 ТБ. В новом проекте LSST ожидается порядка 30ТБ данных в сутки – более петабайта данных в год. Рост объемов данных обуславливает применение новых методов хранения и обработки т.н. “больших данных” – массивов сырых изображений и каталогов высоких размерностей и использование специализированных алгоритмов интеллектуального анализа данных (ИАД). Ключевым этапом ИАД астрономических наблюдений является обработка изображений. На сегодняшний момент массовая обработка сырых изображений осуществляется обсерваториями, вовлеченными в создание небесных обзоров. Астроном-исследователь может воспользоваться результатами этой обработки – каталогом небесных объектов соответствующего обзора. А для нужд все более востребованной нестандартной обработки, прибегнуть к помощи астрофизических пакетов, например, SExtractor, SWarp[1]. Однако перечисленное ПО предназначено лишь для обработки отдельных изображений либо небольших наборов изображений. Целью данного проекта является создание программной технологии массовой обработки сырых изображений современных и будущих небесных обзоров. Технология должна предоставить астрофизику возможность производить поэтапную настраиваемую обработку изображений небесных обзоров для больших участков неба, а именно: 1)отбор изображений для заданного фрагмента неба; 2)вычитание фона; 3)проекция; 4)стекинг; 5)детектирование групп объектов и их свойств; 6)детектирование индивидуальных объектов и их свойств. Технология должна горизонтально масштабироваться на растущие объемы данных новых небесных обзоров и должна быть доступна в виде облачного сервиса либо для разворачивания на вычислительных мощностях научно-исследовательских либо учебных заведений. В основе технологии предлагается использовать модель вычислений MapReduce[2] и концепцию распределенного хранения данных и соответствующие программные реализации Hadoop MapReduce, HDFS, Spark.