Аннотация:Тен В.А. была поставлена задача на примере простой игры научить компьютер «жить» в мире с определенными условиями и продемонстрировать логичность действий в различных ситуациях алгоритма, обученного по принципу обучения с подкреплением.
Для выполнения поставленной задачи было решено использовать Q-обучение. Смысл метода в том, что на основе получаемого от среды вознаграждения алгоритм формирует функцию полезности Q, что в последствии дает ему возможность уже не случайно выбирать стратегию поведения. Фактически обучаются вероятности перехода системы из одного состояния в другое на основе предыдущего опыта взаимодействия со средой.
В результате работы была написана программа на языке Python, демонстрирующая процесс обучения и поведение объекта в среде по принципу «обучения с подкреплением».