Bandit-Based Planning and Learning in Continuous-Action Markov Decision Processes.

Ari Weinstein Michael L. Littman

Published in: ICAPS (2012)

Keyphrases

markov decision processes
reinforcement learning
partially observable
state space
stochastic games
learning algorithm
finite state
reinforcement learning algorithms
partially observable markov decision processes
least squares
heuristic search
optimal policy
policy iteration
finite horizon
action space
dynamic programming
blocks world
planning under uncertainty