Confidence Backup Updates for Aggregating MDP State Values in Monte-Carlo Tree Search.

Zahy Bnaya Alon Palombo Rami Puzis Ariel Felner

Published in: SOCS (2015)

Keyphrases

monte carlo tree search
bayesian reinforcement learning
state space
monte carlo
reinforcement learning
optimal policy
utility function
markov decision process
machine learning
linear programming
markov decision processes
cost function
infinite horizon
tree search algorithm