Кластеризация текстовой выборки, параметризованной ключевыми словами своих элементов

Головастова, Э.А.; Красотин, Д.Н.

Авторы: Головастова Элеонора Александровна, Красотин Дмитрий Николаевич
Журнал: Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии
Номер: 3
Год издания: 2020
Издательство: Федеральное государственное бюджетное образовательное учреждение высшего образования "Воронежский государственный университет"
Местоположение издательства: Воронеж
Первая страница: 108
Последняя страница: 119
DOI: 10.17308/sait.2020.3/3045
Аннотация: В данной работе рассмотрено решение задачи кластеризации больших объемов текстовых выборок фиксированной длины с помощью компьютерных средств обработки информации. Автоматическое разделение на группы близких по смыслу текстов является одной из важнейших задач анализа данных, так как имеет очень широкую область применения. Основное внимание в статье уделено скорости выполнения алгоритма. Для этого используется способ представления выборки, использующий в качестве набора признаков документов их ключевые слова, которые есть наиболее важные слова в тексте, набор которых может дать для читателя достаточно полное представление о его содержании. Ключевые слова определяются с помощью предварительно вычисленных значений статистической меры tf-idf, характеризующей важность каждого слова текста именно для рассматриваемого текста. Следующим этапом является непосредственно кластеризация корпуса документов. В данной работе используется модификация метода Dbscan, который является плотностным алгоритм пространственной кластеризации с присутствием шума, но здесь он интерпретируется как разновидность обхода в ширину с некоторыми ограничениями графа выборки документов.
Добавил в систему: Головастова Элеонора Александровна

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Кластеризация текстовой выборки, параметризованной ключевыми словами своих элементовстатья