Мультимедийный размеченный корпус текстов на говорах западных эвенков - НИР | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Руководитель НИР: Казакевич О.А.
Участники НИР: Багаряцкая Т.Б., Будянская Е.М., Вахонева Д.М., Воронцова М.И., Галямина Ю.Е., Дувакин Е.Н., Захаров Л.М., Клячко Е.Л., Митрофанова Н.К., Ренковская Е.А., Реутт Т.Е., Чвырев А.В.
Подразделение: 4.15.Лаборатория автоматизированных лексикографических систем
Срок исполнения: 1 января 2010 г. - 31 декабря 2010 г.
Номер договора (контракта, соглашения): 10-06-00532
Номер ЦИТИС: 01201057423
Тип: Фундаментальная
Приоритетное направление научных исследований: Математическое моделирование, методы вычислительной и прикладной математики и их применение к фундаментальным исследованиям в различных областях знаний и в нанотехнологиях
Рубрики ГРНТИ:
- 16.21.27 Социолингвистика
- 16.21.21 Методы лингвистических исследований
- 16.21.33 Лингвистика текста
- 16.21.37 Фонология. Фонетика. Акцентология
- 16.21.41 Морфология
- 16.21.45 Словообразование
- 16.21.63 Диалектология и лингвистическая география
- 16.31.61 Приложение языкознания к другим наукам
- 16.41.25 Уралоалтайские языки
Ключевые слова: поиск по корпусу, говоры западных эвенков, кодовые переключения, разметка корпуса, текстовые жанры, мультимедийный корпус текстов, параметры поиска, морфологическое индексирование, эвенкийский язык
Описание:
Целью проекта является создание мультимедийного размеченного корпуса текстов на говорах западных эвенков, в рамках которого будет обеспечиваться хранение языковой и метаязыковой информации и осуществляться поиск информации по различным параметрам (эвенкийское слово или словосочетание, корневая, словообразовательная или словоизменительная морфема, морфологическая характеристика, наличие кодовых переключений, русский переводной эквивалент эвенкийского слова, говор, информант, текстовой жанр), и исследование проблем, возникающих в ходе работы над подобным корпусом. В корпус войдут записанные в последнее десятилетие тексты разных жанров, отражающие современное состояние говоров западных эвенков (будут представлены как северное, так и южное наречия). Предполагаемый объем корпуса - 100 текстов разной продолжительности, составляющих в совокупности не менее 30 тыс. словоупотреблений. Каждый текст корпуса будет представлен звуковым файлом, графическим файлом в принятой эвенкийской орфографии, графическим файлом в фонетической транскрипции, близкой к фонологической, но отражающей специфику каждого из говоров, а также пофразовым переводом на русский язык. Часть текстов будет представлена также видеофайлами, отснятыми в ходе записи текстов. Разметка корпуса будет состоять из характеристик, приписываемых каждому тексту как целостной единице, и внутренней разметки каждого из текстов. Примерно треть текстов корпуса будет снабжена поморфемными грамматическими индексами. В качестве базового программного обеспечения предполагается использовать систему ELAR. Данная системы позволяет легко и наглядно представить в синхронизированном виде видео-, аудио- и графическую информацию и вести поиск по выделенным параметрам. Стоит также отметить, что данное программное обеспечение широко применяется в документационных проектах во многих странах мира для архивации текстов на языках, находящихся под угрозой исчезновения, к каковым относится и эвенкийский. Пользователями корпуса могут стать исследователи, представляющие разные направления гуманитарной науки: лингвисты - тунгусоведы, типологи, компаративисты, социолингвисты, специалисты по малым языкам Сибири, фольклористы, этнологи, историки. Демонстрационная версия корпуса будет размещена в сети Интернет.
Основные результаты:
В ходе реализации проекта были получены следующие результаты: 1. Разработана общая структура мультимедийного размеченного корпуса эвенкийских текстов. Программная реализация корпуса осуществляется на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, где установлена программная платформа LAT (Language Archive Technology), специально предназначенная для решения задач архивации языковых материалов. Платформа задает иерархическую структуру базы. Единицей хранения в базе является текст во всех его представлениях. Каждому тексту соответствует набор метаданных, определяющих параметры поиска текста в базе. Собственно, этот набор и является специфичным для нашего корпуса, задавая его структуру. Выбранные нами параметры метаразметки текстов можно разделить на четыре группы: 1) данные о тексте, 2) данные о рассказчике в случае монолога или о собеседниках в случае диалога или полилога, 3) данные о тех, кто записал и обработал (расшифровал, выверил, проиндексировал и т.д.) текст, 4) данные о месте и времени записи текста. К характеристикам текста относятся его название, диалектная принадлежность, жанр, сюжет и мотив в случае, если мы имеем дело с фольклорным текстом. К данным о рассказчике относится его имя (фамилия, имя, отчество), возраст, место рождения, место постоянного проживания к моменту записи текста, краткая лингвистическая биография. В разделе о тех, кто работал с текстом, указывается, кто сделал аудио- и видеозапись текста, информант, помогавший в расшифровке текста, и лингвист, работавший с этим информантом, лингвист, проверивший полевую расшифровку, лингвист, снабдивший текст морфологической аннотацией и т.д. Наконец, в четвертой группе указывается место и время записи текста и, возможно, место и время его расшифровки. 2. Проведена ревизия имеющихся в нашем распоряжении эвенкийских текстов. По проведенным подсчетам, в нашем полевом архиве в настоящее времяимеется 224 эвенкийских текста, записанных в 16 населенных пунктах на территории Эвенкийског, Туруханского и Енисейского районов Красноярского края, Красноселькупского района Ямало-Ненецкого АО и Верхнекетского района Томской области. 23 текста, записанные в 1996-1999 гг. имеют звуковое и графическое представление, все остальные, записанные в период с 2005 по 2010 гг., - видеоряд, звуковое и графическое представление. Было принято решение включить в корпус все имеющиеся у нас эвенкийские тексты, в том числе записанные в 1996-1999 гг. и не имеющие видеоряда. По ходу ревизии была обнаружена существенная лакуна в нашем материале – полное отсутствие текстов на говорах таймырских эвенков. Эту лакуну мы собираемся заполнить в 2011 г., проведя экспедицию в места проживания носителей хантайского и потаповского говоров. Всем текстам архива приписан набор метаданных. Параметры метаразметки текстов можно разделить на четыре группы: 1) данные о тексте, 2) данные о рассказчике в случае монолога или о собеседниках в случае диалога или полилога, 3) данные о тех, кто записал и обработал (расшифровал, выверил, проиндексировал и т.д.) текст, 4) данные о месте и времени записи текста. К характеристикам текста относятся его название, диалектная принадлежность, жанр, сюжет и мотив в случае, если мы имеем дело с фольклорным текстом. К данным о рассказчике относится его имя (фамилия, имя, отчество), возраст, место рождения, место постоянного проживания к моменту записи текста, краткая лингвистическая биография. В разделе о тех, кто работал с текстом, указывается, кто сделал аудио- и видеозапись текста, информант, помогавший в расшифровке текста, и лингвист, работавший с этим информантом, лингвист, проверивший полевую расшифровку, лингвист, снабдивший текст морфологической аннотацией и т.д. Наконец, в четвертой группе указывается место и время записи текста и, возможно, место и время его расшифровки. Таким образом, все множество текстов было упорядочено, что облегчает дальнейшую работу с ними, в частности, последовательный отбор текстов для морфологической индексации. Систематизация текстов проведена по нескольким уровням. Во-первых, материалы были упорядочены в соответствии со временем записи (1996, 1998, 1999, 2005, 2006, 2007, 2008, 2009, 2010 гг.). Во-вторых, они группируются по географическому признаку (место записи). В-третьих, тексты сосредотачиваются вокруг соответствующих исполнителей. И, наконец, в-четвёртых, записи делятся на две большие группы: фольклорные материалы и так называемые истории жизни (life stories). Это деление, однако, не означает, что между ними существует непроницаемая граница: фольклор почти всегда содержит элементы действительности, а рассказы о повседневной жизни могут включать фольклорные мотивы. И всё же выделение групп является оправданным и необходимым, поскольку по формальным и содержательным признакам фольклорные тексты чётко отличаются от обычных жизненных историй (по своей структуре, наличию формульных выражений, сюжетно-мотивному составу, лексике и др.). Разнообразие сделанных записей не ограничивается только их фольклорным либо «жизненным» характером. Далее тексты делятся на жанры, перечень которых специфичен для каждой группы. Среди фольклорных материалов – это былички (рассказы о встрече со сверхъественными персонажами, расцениваемые носителями традиции как достоверные), мифы (в данном случае, повествования, которые содержат этиологические мотивы), сказки (о животных, волшебные, бытовые), а также исторические предания, шаманские легенды, песни и тексты малых жанров (запреты, предписания и др.). Life stories включают в себя автобиографии (поэтапное изложение жизненного пути), диалоги, охотничьи истории и рассказы, не связанные с охотой (иногда бессюжетные, например описание леса и жизненные планы). Чтобы облегчить работу с базой данных, вся названная информация была отражена в именах, которые присвоены текстовым файлам. В ходе обработки материалов был создан указатель (каталог) текстов, который должен послужить инструментом для дальнейшей работы. Указатель содержит данные о всех текстах корпуса: год и место записи, имя информанта, группа, жанр, резюме текста и комментарии к некоторым фольклорным текстам. Комментарии касаются, прежде всего, сюжетно-мотивного состава и включают сведения об ареальном распределение того или иного мотива. Для того, чтобы тексты можно было рассматривать на общесибирском и более широком фоне, начато их сопоставление с материалами международных фольклорных указателей. Это, в первую очередь, аналитический каталог Ю.Е. Берёзкина [2010], который содержит информацию об ареальном распространении около тысячи мотивов в глобальной перспективе. 3. Десять текстов архива снабжено поморфемными морфологическими индексами (глоссами). Для индексирования было взято по пять текстов на говорах северного и южного наречия. По жанру все тексты – это истории жизни (автобиография, воспоминание об отдельном эпизоде или охотничий рассказ). Собственно морфологической индексации предшествовало неоднократное прослушивание аудиозаписи текстов с целью коррекции полевой расшифровки. В процессе глоссирования текстов был выработан список используемых морфологических глосс. Начата работа над списком дискурсивных глосс. Все тексты содержат кодовые переключения с эвенкийского языка на русский. Эти переключения отмечаются в текстах. Трудности, возникавшие по ходу глоссирования текстов, в основном порождались либо нечеткостью произнесения слов информантом, либо с появлением в тексте незафиксированного в словарях слова или нестандартной грамматической формы. В ходе работы с текстами нам удалось обнаружить в системе личных, притяжательных и рефлексивных местоимений чириндинского и тутончанского говоров ранее не отмечавшуюся для эвенкийского языка категорию минимального / расширенного инклюзива. Не исключено, что в дальнейшем при глоссировании текстов мы сможем обнаружить и другие еще не описанные грамматические особенности отдельных говоров. 4. Подготовлена и проведена экспедициия в Верхнекетский и Каргасокский районы Томской области, в ходе которой от последних носителей сымского диалекта эвенкийского языка нам удалось записать текстовой и словарный материал и сделать расшифровку записанных текстов. Все записи были сделаны в поселках Верхнекетского района, где мы обнаружили двух информантов (брата и сестру), свободно владеющих сымским диалектом, от которых было записано 17 текстов (в том числе две песни). От них же был записан полный озвученный эвенкийский тематический словарь, включающий более 2000 лексем, к некоторым из которых предлагался набор грамматических форм. Еще трое наших информанта, от которых были записаны сокращенные словари-400-словники, говорить по-эвенкийски не могли. В Каргасокском районе среди живущих там трех десятков сымских эвенков нет ни одного, хоть в какой-то мере владеющего эвенкийским языком. Одна информантка. от которой мы пытались записать 400-словный словарь, вспомнила полтора десятка слоа, да и то с нашей помощью. Мы провели социолингвистическое обследование автохтонного населения четырех поселков Верхнекетского района и трех поселков Каргасокского района, и то, что мы там обнаружили, иначе чем языковыми руинами не назовешь. Тем не менее, результатом экспедиции стало удвоение количества текстов на сымском диалекте в современной записи в нашем архиве, что представляется чрезвычайно важным ввиду плачевного состояния этого диалекта (общее количество его носителей по всем городам и весям не превышает десятка человек, и все они – люди весьма преклонного возраста). 5. Создана пилотная версия мультимедийной текстовой базы, включающая четыре текста на совреченском говоре северного наречия эвенкийского языка с морфологической индексацией. Для пилотной версии были выбраны тексты на совречинском говоре ввиду более высокого качества соответствующих им видеофайлов по сравнению с видеофайлами текстов на полигусовском и суриндинском говорах. Для синхронизации видео, звукового и графического образа текста мы использовали разработанную в Институте психолингвистики им. Макса Планка программу мультимедийной разметки ELAN. На первом этапе мы осуществляли морфологическую индексацию текстов в таблицах Microsoft Word. Для конвертирования полученных файлов doc формата в текстовые файлы, подходящие длязагрузки в ELAN, была написана специальная программа на Visual Basic for Applications. В дальнейшем мы предполагаем продолжить глоссирование тексты в программе SIL Fieldworks в том числе и потому,что подготовленные в этой программе файлы легко импортируются в ELAN. Далее тексты вместе с их видео и аудиопредставлением были размещена на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, где установлена программная платформу LAT (Language Archive Technology), разработанная в Нидерландах в Институте психолингвистики им. Макса Планка и специально предназначенная для решения задач архивации языковых материалов. Для поиска текстов по базе используется их метаразметка. Поиск внутри текстов может осуществляться на всех графических уровнях – текст в стандартной орфографии, текст в транскрипции, морфологические глоссы, дискурсивная разметка и т.д. 6. На сайте лаборатории автоматизированных лексикографических систем НИВЦ МГУ создан специальный раздел, посвященный работе над проектом. http://lcl.srcc.msu.ru/mainstream_pages/project.htm. 7) полученные результаты частично отражены в четырех опубликованных и одной принятой к печати работа
Добавил в систему: Казакевич Ольга Анатольевна

Источник финансирования НИР

грант РФФИ

Этапы НИР

#	Сроки	Название
1	1 января 2010 г.-31 декабря 2010 г.	Мультимедийный размеченный корпус текстов на говорах западных эвенков
Результаты этапа: Целью настоящего проекта является построение мультимедийного размеченного корпуса текстов на говорах западных эвенков, в котором обеспечивается хранение языковой и метаязыковой информации и осуществляется поиск информации по различным параметрам, а также анализ проблем, возникающих в процессе работы над подобным корпусом. За первый год работы над проектом был проделан значительный объем работы, в целом соответствующий намеченной программе: 1) была разработана общая структура мультимедийного размеченного корпуса эвенкийских текстов; 2) была проведена ревизия имеющихся в нашем распоряжении эвенкийских текстов и сделана сопроводительная разметка всех текстов, предназначенных для включения в корпус (мы приняли решение включить в корпус все имеющиеся у нас эвенкийские тексты, в том числе записанные в 1996-1999 гг. и не имеющие видеоряда); 3) было проведено пробное морфологическое индексирование десяти текстов на говорах как южного, так и северного наречия (двух текстов на полигусовском говоре, двух на суриндинском говоре, одного на говоре Стрелки-Чуни, четырех на совреченском говоре и одного на чириндинском говоре) и проанализированы результати индексирования; 4) была подготовлена и проведена экспедициия в Верхнекетский и Каргасокский районы Томской области, в ходе которой от последних носителей сымского диалекта эвенкийского языка нам удалось записать текстовой и словарный материал и сделать расшифровку записанных текстов; таким образом, объем текстов на сымском диалекте в современной записи в нашем архиве увеличился практически вдвое, что представляется чрезвычайно важным ввиду того, что над этим диалектом сегодня нависла вполне реальная угроза исчезновения (количество его носителей не превышает десятка человек, и все они – люди весьма преклонного возраста); 5) пробная версия мультимедийной текстовой базы, включающей четыре текста на совреченском говоре северного наречия эвенкийского языка с морфологической индексацией была создана и размещена на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, использующем программную платформу LAT (Language Archive Technology); 6) на сайте лаборатории автоматизированных лексикографических систем НИВЦ МГУ создан специальный раздел, посвященный работе над проектом. http://lcl.srcc.msu.ru/mainstream_pages/project.htm; 7) полученные в ходе работы над проектом результаты частично отражены в опубликованных и принятых к печати работах.

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Мультимедийный размеченный корпус текстов на говорах западных эвенковНИР

Источник финансирования НИР

Этапы НИР

Прикрепленные к НИР результаты