Аннотация:Большинство известных на данный момент рекомендательных систем основаны на прогнозировании неизвестных оценок объектов по уже известным и предложении пользователю объекта с максимальной из предсказанных оценок. Однако, можно заметить что процесс рекомендации обладает структурой задачи машинного обучения с подкреплением: у пользователя есть различные состояния в зависимости от того какие объекты он выбрал последними, есть действия - выбор объекта для рекомендации, и есть реакция - отклик пользователя, оценка рекомендованному объекту. В данной работе рассматривается построение модели рекомендальной системы на основе Марковского процесса управления и решение задачи поиска оптимальной последовательности рекомендаций. Ключевые слова: рекомендательные системы, машинное обучение, ма- шинное обучение с подкреплением, Марковский процесс управления, Q-обучение.