Reinforcement Learning through Global Stochastic Search in N-MDPs.

Matteo Leonetti Luca Iocchi Subramanian Ramamoorthy

Published in: ECML/PKDD (2) (2011)

Keyphrases

stochastic search
reinforcement learning
markov decision processes
state space
simulated annealing
optimal policy
variable selection
function approximation
consistency checking
search methods
partially observable
continuous state and action spaces
machine learning
reinforcement learning algorithms
temporal difference
policy iteration
multi agent
policy search
model free
markov decision process
genetic algorithm
heuristic search
dynamic programming
evolutionary algorithm
tree search
learning algorithm