Аннотация:Данная магистерская диссертация посвящена проблеме сокращения (снижения размерности) пространства признаков в задаче классификации текстов.
Все методы снижения размерности обычно делятся на две группы: методы селекции и методы трансформации признаков. Из каждой группы нами были выбраны наиболее часто используемые, базовые методы, например, TF-IDF фильтрация и латентное семантическое индексирование. Для них было проведено тестирование, в ходе которого оценивалась точность и время классификации текстов до и после применения методов сокращения пространства признаков. Тестирование проводилось для текстов как на английском, так и на русском языке.
По результатам тестирования были предложены модификации рассмотренных методов. Экспериментальное исследование модифицированных методов показало улучшение оцениваемых показателей (точности и времени классификации).