Что и как может получить лингвист из оцифрованных текстовстатья
Статья опубликована в журнале из списка RSCI Web of Science
Статья опубликована в журнале из перечня ВАК
Статья опубликована в журнале из списка Web of Science и/или Scopus
Дата последнего поиска статьи во внешних источниках: 23 сентября 2021 г.
Аннотация:Анализируются разные способы получения статистики по оцифрованным текстам. Показано, что цифры, полученные при «гуглении» никакой статистической ценности не имеют. Google Books Ngram Viewer, на статистику которого опирается ряд авторов, совершенно непригоден для анализа текстов в дореформенной графике, а корпус Google Books советского и постсоветского периода имеет сильные тематические перекосы (например, появляющееся почти исключительно в выходных данных слово Политиздат в текстах первой половины 1960-х оказывается частотнее, чем окно). Надежную статистику дает НКРЯ, но лишь для наиболее частотной лексики.
Детально рассмотрены возможности поиска в ГИКРЯ (б. 19 млрд словоупотреблений). На материале подкорпусов Журнальный зал, Новости, ЖЖ и ВК показано, что в разных типах текстов заметно различается не только частотность лексем, но и доля отдельных словоформ лексемы может различаться в 2-3-4 раза.