ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
На базе мультимедийного эвенкийского архива лаборатории автоматизированных лексикографических систем НИВЦ МГУ был создан мультимедийный аннотированный эвенкийский корпус, содержащий 52 текста с морфологической и дискурсивной разметкой (глоссами) общим объемом 35 тыс. словоупотреблений. Тексты, вошедшие в корпус, представляют 14 локальных говоров западных эвенков. По жанру это в основном истории жизни и охотничьи рассказы, фольклорных текстов немного: для первой версии корпуса было решено отобрать тексты, в которых представлена максимально спонтанная речь. Большинство текстов корпуса имеют графическое, звуковое и визуальное представление. Лишь для нескольких текстов визуальное представление отсутствует. Каждый текст снабжен набором метаданных. Тексты разбиты на предложения. Синхронизация графического, звукового и визуального представлений осуществлялась в программе ELAN. Графическое представление каждого предложения состоит, по меньшей мере, из четырех слоев: это фонетическая транскрипция с поморфемной разбивкой слов, приближенная к фонематической, но отражающая особенности локальных вариантов языка, поморфемные аннотации (глоссы – семантические, грамматические и дискурсивные), текст в официально принятой графике, и русский перевод. Корпус размещен на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, использующем программную платформу LAT (Language Archive Technology). В корпусе обеспечивается поиск как текстов по определенным параметрам метаданных (поселок, говор, наречие, информант, жанр и т.д.), так и внутритекстовой поиск на уровне звукового или графического представления. В звуковом представлении параметром поиска является время звучания, в графическом представлении возможен поиск в любом слое по отдельному параметру или набору параметров (морфема, слово, словосочетание, глосс, набор глосс, переводной эквивалент и т.д.), Возможен внутритекстовой поиск по любому подмножеству текстов корпуса, которое задается с помощью метапараметров. Пользователями корпуса могут стать исследователи, представляющие разные направления гуманитарной науки, но прежде всего лингвисты - тунгусоведы, типологи, компаративисты, социолингвисты, специалисты по малым языкам Сибири. В процессе работы над корпусом решались следующие задачи: 1) каталогизация текстов эвенкийского архива; 2) отбор текстов для включения в корпус таким образом, чтобы обеспечивалась его репрезентативность в отношении многообразия локальных вариантов западных эвенкийских говоров; 3) выработка системы морфологических деривационных и дискурсивных глосс; 4) выбор формата представления текста в корпусе; 5) дополнительный сбор текстового материала в поле для заполнения территориальных лакун (было подготовлено и проведено две экспедиции – в Верхнекетский и Каргасокский районы Томской области и в Таймырский муниципальный район Красноярского края); 6) выверка полевой расшифровки (фонетической транскрипции и русского перевода) аудиозаписи эвенкийских текстов; выработка критериев разбиения эвенкийских текстов, являющихся текстами устной речи, на предложения, в частности, анализ типов и функций пауз в этих текстах; 7) морфологическая и дискурсивная индексация (глоссирование) эвенкийских текстов; 8) синхронизация звукового и видеоряда с графическим представлением текстов; 9) подготовка метаданных для каждого текста; 10) загрузка текстов в формате ELAN на сервер Languedoc. В ходе поморфемной индексации текстов был выявлен ряд ранее не описывавшихся или описанных не вполне адекватно грамматических феноменов, а также некоторое количество ранее не зафиксированных лексем, что представляется нам весьма важным результатом проекта.
1. Создан мультимедийный размеченный , включающая четыре текста на совреченском говоре северного наречия эвенкийского языка с морфологической индексацией. Для пилотной версии были выбраны тексты на совречинском говоре ввиду более высокого качества соответствующих им видеофайлов по сравнению с видеофайлами текстов на полигусовском и суриндинском говорах. Для синхронизации видео, звукового и графического образа текста мы использовали разработанную в Институте психолингвистики им. Макса Планка программу мультимедийной разметки ELAN. На первом этапе мы осуществляли морфологическую индексацию текстов в таблицах Microsoft Word. Для конвертирования полученных файлов doc формата в текстовые файлы, подходящие длязагрузки в ELAN, была написана специальная программа на Visual Basic for Applications. В дальнейшем мы предполагаем продолжить глоссирование тексты в программе SIL Fieldworks в том числе и потому,что подготовленные в этой программе файлы легко импортируются в ELAN. Далее тексты вместе с их видео и аудиопредставлением были размещена на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, где установлена программная платформу LAT (Language Archive Technology), разработанная в Нидерландах в Институте психолингвистики им. Макса Планка и специально предназначенная для решения задач архивации языковых материалов. Для поиска текстов по базе используется их метаразметка. Поиск внутри текстов может осуществляться на всех графических уровнях – текст в стандартной орфографии, текст в транскрипции, морфологические глоссы, дискурсивная разметка и т.д. 1) Выполнена морфологическая разметка (глоссирование) в общей сложности 52 текстов корпуса, представляющих сымский диалект, четыре говора северного наречия (чириндинский, экондинский, тутончанский и кислоканский) и один говор южного наречия (говор Стрелки-Чуни). Накопленный опыт работы с эвенкийскими текстами, на наш взгляд, сам по себе является одним из важных результатов работы над проектом. Первый этап работы с записанным текстом – это полевая расшифровка (транскрибирование и перевод текста. Здесь требуется помощь носителя языка. Очевидно, что чем лучше сам лингвист знает язык, на котором сделана аудиозапись текста, тем больше он может понять непосредственно из аудиозаписи, но даже в случае хорошего практического знания исследуемого языка вряд ли разумно пренебрегать помощью носителя языка на первом этапе расшифровки. В языках без письменной традиции локальная и индивидуальная вариативность произношения столь велика, что помощь носителя того же локального говора, что и рассказчик, позволит избежать многих неточностей при расшифровке. Кроме того, расшифровщик иногда проясняет то, что в аудиозаписи практически не слышится, например, окончания глаголов и имен в эвенкийском языке, что вряд ли может ответственно сделать сам лингвист. К этому стоит добавить русские вкрапления, обильно рассеянные по эвенкийским текстам и с трудом опознаваемые в случае, если они фонетически адаптированы, как это бывает у пожилых рассказчиков. Следующим, уже послеэкспедиционным этапом работы с текстом является уточнение полевой транскрипционной записи путем неоднократного пофрагментного прослушивания аудиозаписи теперь уже самим лингвистом. Задача состоит в том, чтобы графически представить исходный текст рассказчика, отделив его от повтора и вариаций расшифровщика. При этом нередко камнем приткновения бывают фонетически адаптированные русские вкрапления, не опознанные во время полевой расшифровки. Параллельно с уточнением транскрипционной записи текста уточняется деление текста на предложения, что нередко оказывается далеко не тривиальным, а также его пофразовый перевод на русский язык. Очередной этап работы с текстом – это понимание того, как текст устроен, его лингвистический анализ: морфологический анализ словоформ и анализ используемых в тексте синтаксических структур. Наконец, дискурсивный анализ текста помогает понять стратегии, используемые рассказчиком при изложении событий. На каждом этапе может уточняться транскрипционная запись текста (очевидно, что мы не только понимаем то, что слышим, но и слышим то, что понимаем), а в связи с этим иногда и его пофразовый перевод на русский язык. Работая с текстами в процессе грамматической разметки, мы время от времени наталкиваемся на ранее не описывавшиеся или не совсем, на наш взгляд, адекватно описанные грамматические феномены. Так, процессе морфологического индексирования текстов на чириндинском говоре выявлены и частично проанализированы фонетические и грамматические особенности современных текстов на этом диалекте (к таковым особенностям относится, например, наличие в текстах противопоставления форм минимального и расширенного инклюзивного личеого местоимения 1 лица множественного числа). В экспедиции к таймырским эвенкам был собран материал, В ходе работы с сымскими текстами был обнаружен нестандартный (с точки зрения существующих грамматик, большинство которых ориентировано на литературный вариант языка) грамматический глагольный показатель, ранее не описывавшийся словообразовательный аффикс. По ходу работы с чириндинскими текстами выявлены и частично проанализированы фонетические и грамматические особенности современных текстов на этом диалекте (к таковым особенностям относится, например, наличие в текстах противопоставления форм минимального и расширенного инклюзивного личеого местоимения 1 лица множественного числа). Анализ особенностей современных текстов из Тутончан показывает неоднородность эвенкийских идиомов, используемых жителями поселка; в 1970-е гг. после закрытия фактории Агата в Тутончаны была переселена часть жителей этой фактории, примерно в то же время был закрыт поселок в низовьях Нижней Тунгуски, и его жители тоже частично переехали в Тутончаны. Почти четыре десятилетия тесных контактов, по меньшей мере, трех говоров в рамках одного поселка не могли не отразиться на этих говорах. Поэтому современные тутончанские тексты – это прежде всего объект для изучения различных контактных явлений на примере контактирующих говоров одного наречия. Похожую картину дают нам кислоканские тексты: уже на первом этапе анализа получило подтверждение наше предположение о говорной неоднородности поселка. В случае Кислокана нельзя не учитывать еще и то, что поселок находится почти на границе северного и говоров южного наречия. Наличии морфологически проиндексированных текстов дает возможность скрупулезного исследования грамматических тонкостей этих текстов и обнаружения порой неожиданных типологических параллелей. В этом мы видим один из важных результатов нашей работы. 2) Важным результатом работы над проектом стали две подготовленные и проведенные экспедиции к сымским эвенкам в поселки Верхнекетского и Каргасокского районов Томской области и к таймырским эвенкам в поселки Хантайское Озеро и Потапово Таймырского муниципального района Красноярского края и те материалы, которые мы привезли из этих экспедиций. Во время экспедиций помимо сбора языкового материала проводилось социолингвистическое обследование поселков, что дало впоследствии возможность представить широкую и детальеную панораму языковой ситуации у западных эвенков. нам удалось записать 46 эвенкийских текстов на четырех таймырских говорах и расшифровать (затранскрибировать и перевести) большую их часть. Кроме того, мы привезли большой объем озвученных эвенкийских лексических материалов (около 100 часов). В поселках, где работала экспедиция, было проведено социолингвистическое обследование, частью которого было анкетирование жителей поселков (всего мы заполнили 244 анкеты, в каждой анкете по 34 вопроса). Проведенное социолингвистическое обследование показало, что во всех этно-локальных группах автохтонного населения Потапова и Хантайского Озера развивается процесс языкового сдвига (перехода с этнического языка на русский), передача этнического языка от родителей к детям прекратилась в Потапове уже не менее 30 лет назад, в Хантайском Озере – не менее 25 лет назад у эвенков и несколько позже у долган. В Потапове с населением 335 человек, по данным районной администрации, живут 138 ненцев, 10 энцев, 8 нганасан, 17 долган и 20 эвенков. Среди ненцев Цифры эти весьма приблизительны: энцев (тех, кто осознает себя энцами) в поселке примерно в четыре раза больше, а ненцев, соответственно, меньше, при этом многие из них имеют ненецких предков. Эвенкийским языком в Потапове владеют в разной степени человек 5, все старше 45 лет. Энецким языком владеют в разной степени едва ли более 15 человек, свободно владеют 6 человек, все старше 45 лет. Долганским языком владеют не более 5-6 человек, свободно владеют двое (старше 50 лет). Нганасанским языком в Потапове владеют двое (старше 45 лет). Наконец, разная степень владения ненецким языком в Потапове встречается не только у ненцев старше 30 лет, но и у пожилых энцев, реже у эвенков. В Потаповской средней школе спорадически преподается энецкий и ненецкий язык, насколько можно судить, не слишком эффективно. Население Хантайского Озера - 355 человек, из них 144 эвенка, 177 долган и 4 энца. Сегодня эвенкийские жители Хантайского Озера – это собственно хантайские эвенки, а также выходцы из фактории Камень, ликвидированной в 1980 г., фактории Агата, ликвидированной в 1970-е гг., с. Потапова и окрестностей Игарки. В Хантайском Озере эвенкийским языком в разной степени владеют человек 40 (все они старше 30 лет), свободно владеют человек 10-15 (все старше 60 лет). Долганским языком в разной степени владеют человек 100 (все они старше 25 лет), свободно владеют человек 40-45 (все старше 50 лет). Исключение составляет приехавшая из Хатангского района 27-летняя учительница долганского языка, свободно говорящая на хатангском диалекте (что свидетельствует о гораздо лучшей сохранности хатангского диалекта в сравнении с каменским, хантайским и прочими говорами долган Хантайского Озера). Факторию Камень ликвидировали, а ее жителей (эвенков и долган) переселили в Хантайское Озеро, бывшее на тот момент практически мононациональным эвенкийским поселком, в 1980 г. Многие хантайские эвенки считают, что утрата их языка началась с приходом людей из Камня. Стоит заметить, что в Камне, по-видимому, происходило вытеснение эвенкийского языка долганским; Проводя анкетирование, мы обнаружили следы этого вытеснения: некоторые пожилые выходцы из Камня, этнически идентифицирующие себя с эвенками, эвенкийским языком не владеют, а родным языком называют долганский. В неполной средней школе Хантайского Озера преподаются энецкий и долганский языки, однако пока что эффективность преподавания оставляет желать лучшего? Однако изменение ситуации всегда возможно. Картина не веселая. И она лишний раз убеждает в необходимости документации говоров автохтонных языков: не записал сегодня, возможно, не запишешь уже никогда. Увы!. 3) В этом году морфологическая разметка текстов была дополнена разметкой другого уровня – дискурсивной 7. Была разработана система дискурсивной разметки текстов. Предлагаемая нами на данном этапе дискурсивная разметка довольно проста: в соответствии с тремя выделяемыми функциями дискурсивных маркеров - упорядочение фрагментов текста и обеспечение его (текста) связности; заполнение пауз; указание на источник информации и/или степень достоверности сообщаемого – в текстах специальными глоссами в отдельной строке (ELAN обеспечивает возможность использования нескольких строк для разного типа разметки текста) отмечаются три типа дискурсивных маркеров: связки (LINK), заполнители пауз (JOKER), и указатели источника информации (INFORM). Выполнена пробная разметка 5 текстов с морфологическими глоссами. 4) Важнейший результат для развития эвенкийской текстовой базы, которая перестает быть лишь игрушечным пилотным проектом: осуществлен импорт 30 проиндексированных (отглоссированных) в этом году и 6 отглоссированных в прошлом году текстов в ELAN, проведена синхронизация видео и звукового ряда с графической записью текстов и размещение синхронизированных текстов на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru. 5) Фольклорные тексты составляют примерно половину нашего эвенкийского корпуса. Работа с ними – важная часть нашей работы над проектом. В этом году проведен анализ фольклорных сюжетов и мотивов, представленных в текстах корпуса. Прозаические фольклорные материалыв, вошедште в наш корпус, представлены текстами разных жанров. Это мифы, сказки, былички, исторические предания и шаманские легенды. В их мотивном составе выделяются две группы мотивов: этиологические и приключенческие. Первые, как правило, встречаются в мифах (мифологических сказках), а вторые – в сказках, быличках, преданиях и легендах о шаманах. Этиологические мотивы концентрируются вокруг следующих тем: происхождение лунных пятен; появление животных, объяснение особенностей их внешнего облика и внутреннего строения; появление первых людей и болезней. С луной связаны два мотива: 1) лунные пятна – это девушка, отправленная за водой (1998 Sovrechka Davinduk F-M 2), 2) лунные пятна – большой человек с одной рукавицей, ушедший с земли, потому что у него украли вторую (2007 Chirinda Eldogir Valentina F-M 4). Большинство этиологических мотивов связано с животными. Первые комары вылетели из тела сожженной на костре ведьмы (1998 Sovrechka Saygotina Oksana F-M 2). Красные цвет глаз сороги (1998 Sovrechka Davinduk F-M 1) и красные пятнышки около глаз глухаря (2007 Chirinda Eldogir Valentina F-M 10) объясняются тем, что когда-то они сильно плакали. Два этиологических мотива связаны с происхождением красной окраски лисы. Первый содержится в нескольких текстах и состоит из следующих эпизодов: лиса просится к женщинам на лодку, съедает их запасы и убегает; они отправляются в погоню за ней, поджигают дерево, на котором сидела лиса; шкура лисы становится красной (2007 Chirinda Eldogir Valentina F-M 8; 2007 Ekonda Udygir Viktor F-Sk 2; 2008 Kislokan Udygir Valentina F-M) (ср. 2007 Mutoray Yastrikova F-Sk 4). Ранее аналогичный нарратив был записан у илимпийских эвенков Г.М. Василевич в 1920-1930-е гг. и опубликован ею в 1936 г. Что касается второго мотива, то он связывает происхождение красной окраски с усталостью, которую лиса испытывала после соревнований в беге с налимом (2005 Poligus Archemku F-M) (ср. 2007 Mutoray Dmitriev F-Sk; 2008 Kislokan Mongo F-M). Вариант данного текста был записан Г.М. Василевич в Нгоконно (верховья Нижней Тунгуски, Иркутская обл.) и опубликован в Сборнике материалов по эвенкийскому фольклору (1936). Плоская форма, присущая телу карася, объясняется тем, что эта рыба дразнила лося и тот, разозлившись, раздавил её (2007 Chirinda Eldogir Iliya L & F; 2007 Chirinda Khutokogir Dmitriy L & F). В Чиринде была записана мифологическая сказка о том, как воевали куропатка и щука. Они стреляли друг в друга стрелами; с тех пор у куропатки в ногах, а у щуки в спине много костей (это оставшиеся стрелы) (2007 Chirinda Eldogir Valentina F-M 3). Данный мотив происхождения рыбьих костей хорошо известен в Западной и Восточной Сибири, на Дальнем Востоке и в Северо-Восточной Азии (Берёзкин 2011: мотив B64), однако у эвенков зафиксирован, по-видимому, впервые. То же относится и к мотиву появления косточек в птичьих ногах, который ранее был известен только у долган, якутов, юкагиров и тагиш (Берёзкин 2011: мотив B64). Особый интерес представляют и тексты с приключенческими мотивами. Так, в Полигусе записана сказка о лисе, которая, чтобы переправится через реку, обманула налимов – предложила их сосчитать, и в результате перебралась на другой берег по их спинам (2005 Poligus Archemku F-Sk). Среди эвенков мотив «Живая цепь» был зафиксирован прежде только у аянской группы (Левин 1936: 221-224; Берёзкин 2011: мотив М3), следовательно, текст из Полигуса является первой фиксацией этого мотива у носителей западных диалектов. Другой редкий для эвенков мотив содержит шаманская легенда, записанная в Эконде [2007 Ekonda Udygir Viktor F-Sham]. В ней повествуется о том, как шаман поймал духа болезни в мешок, начал его бить, в итоге болезнь ушла. Варианты этой легенды не встречаются среди опубликованных эвенкийских записей. Ближайшая аналогия обнаруживается у географически близких вилюйских якутов (Эргис 1960: 297-301) и по своему распространению мотив духа в ловушке тяготеет именно к тюрко-монгольским традициям (Дувакин 2011: 76-80, 388-393). 6) На сайте лаборатории автоматизированных лексикографических систем НИВЦ МГУ ведется создан специальный раздел, посвященный работе над проектом. http://lcl.srcc.msu.ru/mainstream_pages/project.htm. 7) Полученные результаты частично отражены в пяти опубликованных и двух принятых к печати работах.
грант РФФИ |
# | Сроки | Название |
1 | 1 января 2012 г.-31 декабря 2012 г. | Мультимедийный размеченный корпус текстов на говорах западных эвенков |
Результаты этапа: Целью проекта являлось построение мультимедийного размеченного корпуса текстов на говорах западных эвенков, в котором обеспечивлось бы хранение языковой и метаязыковой информации и осуществлялся поиск информации по различным параметрам, а также анализ проблем, возникающих в процессе работы над подобным корпусом. За три года работы над проектом эта цель была достигнута. На базе мультимедийного эвенкийского архива лаборатории автоматизированных лексикографических систем НИВЦ МГУ был создан мультимедийный аннотированный эвенкийский корпус, содержащий 52 текста с морфологической и дискурсивной разметкой (глоссами) общим объемом 35 тыс. словоупотреблений. Тексты, вошедшие в корпус, представляют 14 локальных говоров западных эвенков. По жанру это в основном истории жизни и охотничьи рассказы, фольклорных текстов немного: для первой версии корпуса было решено отобрать тексты, в которых представлена максимально спонтанная речь. Большинство текстов корпуса имеют графическое, звуковое и визуальное представление. Лишь для нескольких текстов визуальное представление отсутствует. Каждый текст снабжен набором метаданных. Тексты разбиты на предложения. Синхронизация графического, звукового и визуального представлений осуществлялась в программе ELAN. Графическое представление каждого предложения состоит, по меньшей мере, из четырех слоев: это фонетическая транскрипция с поморфемной разбивкой слов, приближенная к фонематической, но отражающая особенности локальных вариантов языка, поморфемные аннотации (глоссы – семантические, грамматические и дискурсивные), текст в официально принятой графике, и русский перевод. Корпус размещен на Московском сервере языковых архивов LangueDOC http://languedoc.philol.msu.ru, использующем программную платформу LAT (Language Archive Technology). В корпусе обеспечивается поиск как текстов по определенным параметрам метаданных (поселок, говор, наречие, информант, жанр и т.д.), так и внутритекстовой поиск на уровне звукового или графического представления. В звуковом представлении параметром поиска является время звучания, в графическом представлении возможен поиск в любом слое по отдельному параметру или набору параметров (морфема, слово, словосочетание, глосс, набор глосс, переводной эквивалент и т.д.), Возможен внутритекстовой поиск по любому подмножеству текстов корпуса, которое задается с помощью метапараметров. Пользователями корпуса могут стать исследователи, представляющие разные направления гуманитарной науки, но прежде всего лингвисты - тунгусоведы, типологи, компаративисты, социолингвисты, специалисты по малым языкам Сибири. В процессе работы над корпусом решались следующие задачи: 1) каталогизация текстов эвенкийского архива; 2) отбор текстов для включения в корпус таким образом, чтобы обеспечивалась его репрезентативность в отношении многообразия локальных вариантов западноых эвенкийских говоров; 3) выработка системы морфологических деривационных и дискурсивных глосс; 4) выбор формата представления текста в корпусе; 5) дополнительный сбор текстового материала в поле для заполнения территориальных лакун (было подготовлено и проведено две экспедиции – в Верхнекетский и Каргасокский районы Томской области и в Таймырский муниципальный район Красноярского края); 6) выверка полевой расшифровки (фонетической транскрипции и русского перевода) аудиозаписи эвенкийских текстов; выработка критериев разбиения эвенкийских текстов, являющихся текстами устной речи, на предложения, в частности, анализ типов и функций пауз в этих текстах; 7) морфологическая и дискурсивная индексация (глоссирование) эвенкийских текстов; 8) синхронизация звукового и видеоряда с графическим представлением текстов; 9) подготовка метаданных для каждого текста; 10) загрузка текстов в формате ELAN на сервер Languedoc. В ходе поморфемной индексации текстов был выявлен ряд ранее не описывавшихся или описанных не вполне адекватно грамматических феноменов, а также некоторое количество ранее не зафиксированных лексем, что представляется нам весьма важным результатом проекта. На сайте лаборатории автоматизированных лексикографических систем НИВЦ МГУ был создан специальный раздел, посвященный ходу работ над проектом: http://lcl.srcc.msu.ru/mainstream_pages/project.htm. Полученные в ходе работы над проектом результаты частично отражены в 10 опубликованных и 4 принятых к печати работах. |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".