Аннотация:В данной работе рассмотрено решение задачи кластеризации больших объемов текстовых выборок фиксированной длины с помощью компьютерных средств обработки информации. Автоматическое разделение на группы близких по смыслу текстов является одной из важнейших задач анализа данных, так как имеет очень широкую область применения. Основное внимание в статье уделено скорости выполнения алгоритма. Для этого используется способ представления выборки, использующий в качестве набора признаков документов их ключевые слова, которые есть наиболее важные слова в тексте, набор которых может дать для читателя достаточно полное представление о его содержании. Ключевые слова определяются с помощью предварительно вычисленных значений статистической меры tf-idf, характеризующей важность каждого слова текста именно для рассматриваемого текста. Следующим этапом является непосредственно кластеризация корпуса документов. В данной работе используется модификация метода Dbscan, который является плотностным алгоритм пространственной кластеризации с присутствием шума, но здесь он интерпретируется как разновидность обхода в ширину с некоторыми ограничениями графа выборки документов.