|
ИСТИНА |
Войти в систему Регистрация |
ИПМех РАН |
||
В лаборатории создаются корпуса для разных задач. RuConst. Корпус русского языка в терминах синтаксических составляющих и зависимостей. Корпус составлен ансамблированием нескольких инструментов морфосинтаксического анализа и включает более 6.8 т. слов и более 600 т. предложений. Открыт для скачивания и может быть использован для лингвистических исследований и машинного обучения. RuParam. Корпус для оценки языковой компетенции в области русского языка. Содержит преимущественно однозначные параметры и данные от носителей. Состоит из минимальных пар примеров, имеет подробную грамматическую разметку и охватывает широкий круг грамматических явлений. Ч. 1 основана на тестах РКИ, а Ч. 2 включает различные грамматические параметры. Нивхский корпус. Находится на начальном этапе создания. Есть унифицированные и размеченные документы общим объемом < 600 предложений. Разработаны инструменты для приведения их к виду CoNLL-U и др. форматам, допускающим поиск и извлечение данных.