«Атлас флоры России» на платформе Цифрового гербария МГУ - доклад на конференции | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Автор: Серегин А.П.
Всероссийская с международным участием Конференция : IV (VI) Всероссийская молодежная конференция с участием иностранных ученых «Перспективы развития и проблемы современной ботаники»
Даты проведения конференции: 8-12 октября 2018
Дата доклада: 8 октября 2018
Тип доклада: Приглашенный
Докладчик: Серегин А.П.
Место проведения: Новосибирск, Russia
Аннотация доклада:
Цифровой гербарий МГУ (https://plant.depo.msu.ru/) – результат работ по полной оцифровке фондовой коллекции Гербария Московского университета. На грант РНФ № 14–50–00029 мы отсканировали и опубликовали в интернете изображения 911 тыс. гербарных образцов. Из них около 638 тыс. образцов – это растения, собранные в России. Второй этап развития Цифрового гербария МГУ после создания библиотеки общедоступных изображений – это сопутствующая база этикеток, т.е. собрание полных текстовых метаданных образцов. Сканирование фондов была начато нами 25 мая 2015 г., публикация первых массивов данных – 24 августа 2017 г. На конец апреля 2018 г. база данных этикеток насчитывает 101,5 тыс. записей, а также дополнительные OCR-транскрипции еще 86 тыс. образцов. Параллельно с созданием текстовой базы данных по флоре России (и ряда других стран, широко представленных в Гербарии МГУ) мы начали большую работу по геопривязке всех образцов коллекции. Наши операторы геопривязки каждый образец (если возможно) привязывают к конкретной точке и указывают точность привязки –радиус круга, который с большой вероятностью накрывает предполагаемое место сбора, указанное зачастую довольно неопределенно. На конец апреля 2018 г. геопривязку имеют 109,5 тыс. гербарных образцов, в т.ч. 88 тыс. образцов с территории России. К моменту проведения конференции все приведенные выше цифры безнадёжно устареют из-за постоянного активного роста текстового массива и массива геоданных. Геопривязка идет несколькими путями с разной степенью интенсивности. Источники геоданных следующие: (1) данные этикеток, если координаты прямо на них указаны; (2) ручная геопривязка мест сбора с использованием картографических и литературных источников; (3) автоматическая и полуавтоматическая геопривязка по алгоритмам системы ИСТРА. Если с первыми двумя пунктами ход работ и общие прёмы очевидны, то внедрение системы ИСТРА (Интеллектальная Система Топонимического Распознавания и Атрибутирования) – одно из важных достижений нашего проекта. Ее работа идет по двум алгоритмам: по совпадению текста этикеток и по совпадение даты и автора сбора нескольких образцов. Как только какой-либо образец получает ручную геопривязку, система ищет в базе данных все образцы с идентичным текстом, описывающим место сбора (алгоритм 1), или с идентичной парой значений дня и автора сбора (алгоритм 2). Таким образом, имея предварительный массив обширной текстовой информации в виде БД этикеток мы значительно ускоряем процесс ввода координат для отдельных образцов, которые агрегируются в группы с одним точно привязанным референсным образцом. В среднем для каждого вида флоры России в базу данных геопривязок будет введено около 50 точек сбора (есть несколько видов, представленных более чем 1 тыс. образцов), что поможет получить обзорные карты ареалов большинства видов в полуавтоматическом режиме. Коллаборация с другими базами данных (если подобные когда-либо будут созданы в России) поможет бесконечно подробно детализировать пространственную информацию о распространении отдельных видов по таксономическим группам или по регионам, а также получить единую фактическую основу для конспекта флоры России и региональных чеклистов-матрешек на его основе. Все эти возможности уже сейчас заложены в архитектуру Цифрового гербария МГУ.
Добавил в систему: Серегин Алексей Петрович

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

«Атлас флоры России» на платформе Цифрового гербария МГУдоклад на конференции

Прикрепленные файлы