Описание:1. Раздел I. Области компьютеризации лингвистических исследований.
Ознакомление магистрантов с общим кругом областей и проблем компьютерного моделирования и анализа материала естественного языка.
1.1. Название темы
Общие проблемы компьютерного моделирования и анализа материала естественного языка.
Содержание темы
Анализ соотношения онтологии естественного языка и средств и приёмов формального отображения его устройства в алгоритмах вычислительных устройств. Особенности моделирования синхронных срезов и диахронных процессов языка.
1.2. Название темы
Построение и анализ синхронных и диахронных текстовых и речевых корпусов.
Содержание темы
Обобщение опыта создания и использования текстовых корпусов в целях их лингвистического анализа. Принципы отбора и маркировки текстов, организации текстовой базы и системы манипулирования лингвистическими данными.
1.3. Название темы
Построение и анализ синхронных и диахронных словарных баз данных.
Содержание темы
Анализ задач, средств и приёмов создания и использования баз данных по русским и английским словарям различных типов.
1.4. Название темы
Разработка и реализация на компьютере математических моделей языкового существования-развития.
Содержание темы
Выявление и анализ проблем разработки и использования компьютерных математических моделей синхронии и диахронии языка.
1.5. Название темы
Разработка и приложение комплекса математических средств анализа устройства текста с помощью компьютера.
Содержание темы
Анализ мирового опыта и собственных разработок лаборатории общей и компьютерной лексикологии и лексикографии (ЛОКЛЛ филфака МГУ) в области математического анализа текстов.
1.6. Название темы
Авторские корпуса текстов и их использование в лингвистическом и литературоведческом анализе.
Содержание темы
Принципы отбора и маркировки текстов, текстологические и др. проблемы.
1.7. Название темы
Создание и анализ БД по психолингвистическим экспериментам по выявлению уровня и характера знания лексики носителями русского языка
Содержание темы
Анализ методики сбора данных по указанным экспериментам, создания на их основе БД, её пополнения общеязыковыми данными и квантитативно-системного лингвистического анализа.
Раздел II. Результаты применения компьютерных технологий в лингвистике. Электронные базы данных и корпуса текстов, доступные для исследования.
2.1. Название темы.
Лингвистически ориентированные продукты в Интернете.
Содержание темы
Обзор электронных конкордансов, корпусов текстов, лексикографических баз данных и пр., имеющихся в Интернете.
2.2. Название темы.
Национальный корпус русского языка: состав, типы информации и функциональные возможности.
Содержание темы
2.3. Название темы.
Специализированные корпуса текстов (на материале электронных корпусов ЛОКЛЛ МГУ) - анализ принципов и целей создания, результатов и возможностей их использования.
Содержание темы
«Полистилевой корпус современного русского языка; «Компьютерный корпус русских газет конца 20 века" (ККРГК 20 века); корпус «Стихи и драматургия Пушкина», «Корпус художественных произведений А.П.Чехова».
2.4. Название темы
Специализированные неологические БД, их использование для вскрытия закономерностей лексико-семантической и словообразовательной эволюции русского языка.
Содержание темы
Анализ принципов создания БД по новым словам «Корпуса русских газет конца 20 века» и результаты её использования при анализе закономерностей развития русской лексики. БД лексических неологических данных по словарю «Новые слова и значения» (1984).
2.5. Название темы
Использования БД при анализе закономерностей исторического развития лексики и.-е. языков.
Содержание темы
БД по «Словарю древнерусского языка». БД по «Этимологическому словарю славянских языков». БД по глоттохронологическому списку индоевропейских языков. БД по «Хронологическому морфемно-словообразовательному словарю русского языка» (ХМССРЯ).
2.6. Название темы
Использование БД для изучения синонимии.
Содержание темы
Базы данных по «Словарю синонимов» русского языка А.П.Евгеньеой (1975) и английскому словарю синонимов «Webster’s New Dictionary of Synonyms» и результаты их использования при анализе закономерностей устройства лексической синонимии этих языков.
2.6. Название темы
«Тезаурусные» базы данных.
Содержание темы
БД на основе «Тезауруса синонимов русской речи»; БД на основе «Семантического словаря русского языка».
2.7.Название темы
Исследование грамматических особенностей и вариантов словоизменения с помощью БД «Грамматический словарь русского языка» А.А. Зализняка
Содержание темы
Получение частотных словарей на основе данной БД. Исследование с их помощью системы частей речи, вариантов русского словоизменения и ударения.
2.8.Название темы
Разработка и компьютерная реализация модели эволюции лингвистических систем (на основе «Модели жизненного цикла языкового знака»).
Содержание темы
Анализ проблем разработки системной теории эволюции знаковых единиц и ансамблей в Языке Человека, формализация и квантификация основных параметров, подбор математического аппарата, постановка вычислительных экспериментов и их интерпретация.
Раздел III. Проблемы разработки лингвистических анализаторов. Индустриальная обработка языковых данных и место в ней лингвистического анализа.
3.1. Название темы
Информационный поиск (ИП) в Интернете.
Содержание темы
Анализ проблем лингвистического обеспечения ИП
3.2. Название темы
Машинный перевод (МП).
Содержание темы
Анализ лингвистических проблем МП.
3.3. Название темы
Интеллектуальный поиск информации (ИПИ) в текстовых массивах (data mining)
Содержание темы
Анализ лингвистических проблем ИПИ
3.4. Название темы
Системы распознавания устной речи
Содержание темы
Анализ лингвистических проблем построения и использования систем распознавания устной речи
3.5. Название темы
Автоматическая классификация и распознавание текстов различных типов.
Содержание темы
Анализ проблем автоматической классификации и распознавания текстов различных типов (индивидуальная, гендерная и жанровая специфика)
3.6. Название темы
Контекстуальные словари (КС) и экспертные системы для сбора контекстуальной информации по снятию многозначности лексических единиц
Содержание темы
Анализ опыта разработки контекстуальных словарей на русском и английском материале. Принципы разработки экспертных систем для ускорения разработки КС.
3.7. Название темы
3.8. Основные компоненты и виды лингвистических анализаторов. Автоматический морфологический анализ и синтез.
Содержание темы
Анализ проблем разработки и использования лемматизаторов и морфологических анализаторов в анализе данных русского языка.
3.9. Название темы
Автоматический морфемный анализ.
Содержание темы
Анализ проблем разработки и использования морфемных анализаторов в приложении к данным русского языка.
3.10. Название темы
Разработка денотативно-смысловых анализаторов
Содержание темы
Анализ проблем разработки и использования тезаурусов в денотативно-смысловом анализе данных русского языка
3.11. Название темы
Разработка семантико-синтаксических анализаторов.
Содержание темы
Анализ проблем разработки и использования лексико-семантических и формальных синтаксических признаков в разработке алгоритмов синтаксического анализа текстов русского языка.
3.12. Название темы
Разработка устно-речевых анализаторов.
Содержание темы
Анализ проблем разработки и использования устно-речевых анализаторов
3.13. Название темы
Разработка комплексных лингвистических анализаторов и экспертных лингвистических систем.
Содержание темы
Анализ систем МП как примера комплексных лингвистических анализаторов. Использование экспертных лингвистических систем при решении индивидуально-автороведческих проблем, распознавании гендерных, жанровых и иных характеристик текстов.
Раздел IV. Функциональные возможности стандартных и специализированных средств обработки текстов, создания и исследования баз данных.
4.1.Название темы
Лингвистические функции и возможности Word.
Содержание темы
Особенности получения элементарной статистики. Возможности расширенного поиска и замен. Проблема проверки орфографии и пунктуации, реферирования, составления предметных указателей, анализа стиля, сравнения текстов. Подготовка текстов для корпусов, создаваемых магистрантами.
4.2.Название темы
Создание и исследование баз данных с помощью Excel.
Содержание темы
Создание базы данных. Подготовка материала для БД, создаваемых магистрантами. Анализ материала с помощью сводных таблиц и диаграмм. Использование формул.
4.3.Название темы
Основные возможности, предоставляемые макросами Excel.
Содержание темы
Разбор основных возможностей VBA и некоторых макросов, автоматизирующих анализ данных.
4.4. Название темы
Создание, разметка и исследование корпусов текстов с помощью системы Dictum-2 (ЛОКЛЛ МГУ).
Содержание темы
Знакомство с функциями системы. Самостоятельное создание и обработка электронного корпуса текстов. Извлечение из него материала для собственной БД.
4.5.Название темы
Компьютерная информационно-исследовательская система «ИСТОК»(ЛОКЛЛ МГУ) и проведение с ее помощью исследования размеченного корпуса текстов
Содержание темы
Знакомство с функциями системы. Проведение самостоятельного исследования конвертированных в неё корпусов.
4.6. Название темы
Квантитативное исследования стиля текстов с помощью программы «StyleAnalyser» (ТомскГУ, ЛОКЛЛ МГУ)
Содержание темы
Знакомство с функциями системы и реализованными в ней статистическими функциями. Проверка с помощью этих инструментов различительной силы разных лингвистических признаков на текстах разных жанров и авторов.