Approximate Newton Methods for Policy Search in Markov Decision Processes.

Thomas Furmston Guy Lever David Barber

Published in: J. Mach. Learn. Res. (2016)

Keyphrases

markov decision processes
policy search
reinforcement learning algorithms
reinforcement learning
reward function
continuous state
partially observable markov decision processes
action space
dynamic programming
finite state
state space
markov decision problems
optimal policy
policy iteration
partially observable
average cost
stochastic games
planning under uncertainty
policy gradient
markov games
average reward
decision processes
markov decision process
learning algorithm
finite horizon
infinite horizon
risk sensitive
search space