Итеративный метод временных разностей на основе метода наименьших квадратов для решения задачи обучения с подкреплением - курсовая работа | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Научный руководитель: Рыжов А.П.
Автор: Селин Д.И.
Тип: Специалист
Организация, в которой проходила защита: МГУ имени М.В. Ломоносова
Кафедра: Кафедра математической теории интеллектуальных систем
Год защиты: 2017
Курс: 5
Аннотация: В данной работе рассмотрен новый подход к обучению с подкреплением, который базируется на аппроксимации функции политики итеративным методом наименьших квадратов. Метод не требует наличия функции вознаграждения а также наличия вероятностной модели процесса. В основу алгоритма обучения лег метод временных разностей с использованием метода наименьших квадратов( least squares temporal difference learning algorithm; сокр. LSTD), который известен своим эффективным использованием во многих случаях по сравнению с стандартными разностно-временными алгоритмами. LSTD идеально подходит для задач прогнозирования, однако он до сих пор не имел простого приложения для проблемы управления. Более того, приближения, полученные LSTD, сильно зависят от распределения количества посещений различных состояний. Новый алгоритм, итеративный метод наименьших квадратов (Least Squares Policy Iteration; сокр. LSPI), позволяет решить эти проблемы.
Добавил в систему: Рыжов Александр Павлович

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Итеративный метод временных разностей на основе метода наименьших квадратов для решения задачи обучения с подкреплениемкурсовая работа (Специалист)