Аннотация:Принципиальным моментом эксплуатации систем машинного обучения является то, что модели обучаются на некотором выделенном тренировочном наборе данных. Соответственно, обобщения, полученные на этапе тренировки, обусловлены характеристиками некоторого подмножества генеральной совокупности. Если характеристики данных меняются на этапе эксплуатации системы, то обобщения модели становятся, вообще говоря, несостоятельными. При этом, такое изменение данных следует считать скорее правилом, чем исключением. Такое изменение характеристик данных называется сдвигом данных. Это, в свою очередь означает, что любая система машинного обучения, претендующая на роль промышленной, должна отслеживать возможный сдвиг данных. Наличие такого сдвига снижает доверие к результатам работы или даже делает систему непригодной для дальнейшей эксплуатации. Учет (преодоление) такого сдвига данных – это отдельная задача, простое переобучение может оказаться большой проблемой для критических приложений, например. Но в любом случае, первая задача – это определение факта сдвига данных. Сам сдвиг данных подразделяется на несколько типов, самым серьезным из которых является изменение связи между зависимыми и независимыми переменными. Естественно, что особый интерес вызывает определение сдвига данных для потоков, поскольку это непосредственно связано с критическими приложениями.