Аннотация:В данной работе рассмотрен новый подход к обучению с подкреплением, который базируется на аппроксимации функции политики итеративным методом наименьших квадратов. Метод не требует наличия функции вознаграждения а также наличия вероятностной модели процесса. В основу алгоритма обучения лег метод временных разностей с использованием метода наименьших квадратов( least squares temporal difference learning algorithm; сокр. LSTD), который известен своим эффективным использованием во многих случаях по сравнению с стандартными разностно-временными алгоритмами. LSTD идеально подходит для задач прогнозирования, однако он до сих пор не имел простого приложения для проблемы управления. Более того, приближения, полученные LSTD, сильно зависят от распределения количества посещений различных состояний. Новый алгоритм, итеративный метод наименьших квадратов (Least Squares Policy Iteration; сокр. LSPI),
позволяет решить эти проблемы.