Что и как может получить лингвист из оцифрованных текстов

Беликов, В.И.

Статья опубликована в журнале из списка RSCI Web of Science
Статья опубликована в журнале из перечня ВАК
Статья опубликована в журнале из списка Web of Science и/или Scopus
Дата последнего поиска статьи во внешних источниках: 23 сентября 2021 г.

Автор: Беликов Владимир Иванович
Журнал: Сибирский филологический журнал
Номер: 3
Год издания: 2016
Первая страница: 17
Последняя страница: 34
Аннотация: Анализируются разные способы получения статистики по оцифрованным текстам. Показано, что цифры, полученные при «гуглении» никакой статистической ценности не имеют. Google Books Ngram Viewer, на статистику которого опирается ряд авторов, совершенно непригоден для анализа текстов в дореформенной графике, а корпус Google Books советского и постсоветского периода имеет сильные тематические перекосы (например, появляющееся почти исключительно в выходных данных слово Политиздат в текстах первой половины 1960-х оказывается частотнее, чем окно). Надежную статистику дает НКРЯ, но лишь для наиболее частотной лексики. Детально рассмотрены возможности поиска в ГИКРЯ (б. 19 млрд словоупотреблений). На материале подкорпусов Журнальный зал, Новости, ЖЖ и ВК показано, что в разных типах текстов заметно различается не только частотность лексем, но и доля отдельных словоформ лексемы может различаться в 2-3-4 раза.
Добавил в систему: Беликов Владимир Иванович

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Что и как может получить лингвист из оцифрованных текстовстатья