Using Monte Carlo Tree Search as a Demonstrator within Asynchronous Deep RL.

Bilal Kartal Pablo Hernandez-Leal Matthew E. Taylor

Published in: CoRR (2018)

Keyphrases

monte carlo tree search
bayesian reinforcement learning
monte carlo
reinforcement learning
reinforcement learning methods
temporal difference
tree search algorithm
temporal difference learning
evaluation function
optimal policy
function approximation
reinforcement learning algorithms
monte carlo search
dynamical systems
model free
action selection
state space
action space
multi agent
game playing
policy iteration
long run
learning algorithm
markov chain
supervised learning
objective function
decision making