ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
The corpus of fairy tales for Russian and English is compiled with the goal of introduction of folklore material in machine-readable form. The corpus allows one to create concordances, frequency dictionaries, invoke full texts, etc. On the basis of the corpora tools are developed for calculating the semantic proximity of plots, the graphical presentation of plots and clustering of the resulting graphs. In this context semantic proximity is understood as the number of matching tokens, taking into account the sequence of their appearance in the text. Корпус сказок для русского и английского языка составлен с целью включения в научный оборот фольклорного материала, имеющегося в машиночитаемой форме. Корпус позволяет создавать конкордансы, частотные словари, вызывать полные тексты и пр. На основе корпуса разработаны средства вычисления семантической близости сюжетов, графического представления сюжетов и кластеризации полученных графов. Семантическая близость в данном случае понимается как число совпадающих лексем с учетом последовательности их появления в тексте.