Место издания:Издательский отдел факульте-та ВМК МГУ; МАКС Пресс Москва
Первая страница:81
Последняя страница:81
Аннотация:В докладе даётся обзор методов решения задач классификации и регрессии с категориальными признаками.
Категориальный (факторный, номинальный) признак -- это признак, значения которого обозначают принадлежность объекта к какой-то категории (например, национальность, профессия, идентификационный номер, тарифный план, издательство и т.п.).
В последние годы появились задачи, в которых почти все или даже все признаки категориальные.
Одна из таких задач используется как тестовая для алгоритмов из обзора: задача Международного соревнования <<Amazon.com -- Employee Access Challenge>> о построении рекомендательной системы для службы безопасности.
В докладе рассматриваются следующие модели алгоритмов:
{Линейные алгоритмы}, в которых ответ выражается в виде функции от линейной комбинации признаков нового (вещественного) признакового пространства.
{Обобщения байесовских алгоритмов}, основанные на кодировании категорий оценками вероятностей принадлежности к классам объектов категорий.
{Cингулярное разложение матрицы бинарных признаков}, которая является матрицей характеристических векторов принадлежностей к категориям.
{Алгоритмы, основанные на близости}, которые обобщают модель ближайших соседей kNN и алгоритмов вычисления оценок (АВО).
{Тензорные разложения}, в которых номера категорий интерпретируются как индексы многомерной матрицы.
{Кодировки категориальных признаков в вещественные}, которые позволяют применять стандартные алгоритмы,
например, случайные леса (random forest).
Работа выполнена при поддержке гранта РФФИ \No 14-07-00965