![]() |
ИСТИНА |
Войти в систему Регистрация |
ИПМех РАН |
||
В последнее время слышны дискуссии о «цифровом повороте» в гуманитарных науках. С развитием информационных технологий и распространением компьютеров всё больше создается исследований и проектов, в рамках которых применяются новые количественные и формальные методы. «Дальнее чтение» (в оригинале «distant reading») открывает исследователям возможности взглянуть на материал с другой стороны, увидеть его целиком, а не частями. Современное японоведение стоит перед сложной задачей – создание подходящих моделей для компьютерного анализа языка. Готовые решения не отвечают потребностям филологов, историков и, отчасти, лингвистов. Существующие модели, обученные на опубликованной в поисковике Google информации, возможно использовать для изучения исключительно современных нехудожественных текстов таких как газетные редакционные статьи. В иных случаях же ошибки лемматизации, токенизации и аннотирования текста сильно влияют на результаты работы алгоритмов. Здесь также следует упомянуть и о списках стоп-слов, являющихся скорее переводом аналогичных списков с английского языка, чем отражением японских языковых реалий. Однако, после устранения слабых мест появляются способы поработать над собранным материалом, провести тематическое моделирование и кластеризацию текстов, стилометрический и сетевой анализы, и, таким образом, подойти по-новому к решению исследовательских задач. В рамках доклада вышеописанные проблемы и возможности их преодоления будут рассматриваться на основе собранного автором уникального корпуса газетных редакционных статей о России за 2024 год.