ИСТИНА |
Войти в систему Регистрация |
|
ИПМех РАН |
||
Алгоритм бустинга является одним из наиболее популярных методов прогнозирования в машинном обучении как для задач регрессии, так и для задач классификации. Он получил широкую популярность благодаря высокой точности и сравнительно несложной оптимизации. В алгоритме градиентного бустинга строится ансамбль из базовых прогнозирующих моделей. В целях вычислительной эффективности базовые модели строятся последовательно, без перенастройки ранее созданных моделей. Прогноз строится с помощью суммы базовых моделей, где каждая последующая модель пытается исправить ошибки прогноза предшествующих базовых моделей. Как правило, в качестве базовых моделей используются решающие деревья, которые имеют следующие преимущества: они быстро настраиваются, самостоятельно отбирают признаки и способны органично учитывать как дискретные, так и непрерывные признаки. Недостатком стандартных реализаций решающих деревьев (CART, C4.5) является то, что они могут строить разбиения признакового пространства лишь параллельно осям координат из-за того, что в каждом узле тестируется условие, выше или ниже заданный признак определенного порогового значения. Это накладывает ограничения на моделируемую зависимость, которая, в общем случае, этим ограничениям не удовлетворяет: в случае классификации границы между классами могут идти наклонно, на не параллельно осям координат, а в случае задачи изо-линии моделируемой функции также, в общем случае, будет не параллелен ни одной из осей координат. Из-за такого модельного ограничения снижается точность аппроксимации целевой величины и, как следствие, точность прогнозов. Для компенсации этого ограничения необходим большой объем обучающих данных, чтобы зависимости общего вида аппроксимировать избыточным количеством разбиений вдоль осей. Поскольку каждое решающее дерево обладает описанным ограничением, то и ансамбль решающих деревьев, полученный в результате процедуры бустинга, также будет обладать указанными ограничениями. В докладе предлагается описание подхода для решения описанного ограничения за счет динамических поворотов признакового пространства на каждом этапе бустинга перед построением новой базовой модели. Повороты переводят признаки к новым осям, которые соответствуют либо главным компонентам, либо осям, которые наилучшим образом дискриминируют ошибочные прогнозы от корректных в задаче классификации. Указанные повороты пересчитываются на каждом шаге бустинга, чтобы помочь решающим деревьям аппроксимировать целевую функцию более точно за меньшее число шагов. В указанной процедуре по построению решающие деревья получают возможность производить любые наклонные разбиения. Помимо описания методов в докладе приводятся данные численных экспериментов, показывающие преимущество указанного подхода.