ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
Существует несколько способов оценки качества тематических моделей — наиболее распространённым критерием является перплексия, зависящая от мощности словаря и распределения частот слов в коллекции документов. Данная работа направлена на поиск критерия, также основанного на значении правдоподобия, но нечувствительного к изменению состава словаря. Предлагается относительная перплексия, принимающая значения из отрезка [0,1], которая показывает положение построенной модели относительно крайних случаев — модели с одной общей темой, и модели с одной темой для каждого документа.