Аннотация:В данной диссертации рассматривается задача унификации морфологических тегов. Под тегом понимается наборов признаков, приписываемый словам в ходе морфологического анализа текста. Теги и формат их записи определяют морфологическую разметку текста.
В работе исследованы современные морфологические разметки русскоязычных текстов, по результатам обзора выбраны наиболее часто используемые. Предложены методы унификации тегов; в основе методов -- лингвистические правила и машинное обучение.
Методы программно реализованы в виде консольного приложения на языке программирования Python. Экспериментальное исследование работы методов показало, что наибольшую точность дает комбинация лингвистических правил и метода машинного обучения Conditional random field (CRF).