Обучение с подкреплением - курсовая работа | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Научный руководитель: Половников В.С.
Автор: Тен В.А.
Тип: Бакалавр
Организация, в которой проходила защита: МГУ имени М.В. Ломоносова
Кафедра: Филиал МГУ в г. Ташкент
Год защиты: 2017
Курс: 3
Аннотация: Тен В.А. была поставлена задача на примере простой игры научить компьютер «жить» в мире с определенными условиями и продемонстрировать логичность действий в различных ситуациях алгоритма, обученного по принципу обучения с подкреплением. Для выполнения поставленной задачи было решено использовать Q-обучение. Смысл метода в том, что на основе получаемого от среды вознаграждения алгоритм формирует функцию полезности Q, что в последствии дает ему возможность уже не случайно выбирать стратегию поведения. Фактически обучаются вероятности перехода системы из одного состояния в другое на основе предыдущего опыта взаимодействия со средой. В результате работы была написана программа на языке Python, демонстрирующая процесс обучения и поведение объекта в среде по принципу «обучения с подкреплением».
Добавил в систему: Половников Владимир Сергеевич

	ИСТИНА	Войти в систему Регистрация
	ИПМех РАН
	Главная Поиск Статистика О проекте Помощь

ИСТИНА

ИПМех РАН

Обучение с подкреплениемкурсовая работа (Бакалавр)