Online learning in Markov decision processes with arbitrarily changing rewards and transitions.

Jia Yuan Yu Shie Mannor

Published in: GAMENETS (2009)

Keyphrases

markov decision processes
online learning
reinforcement learning
state space
optimal policy
finite state
transition matrices
dynamic programming
decision theoretic planning
partially observable
finite horizon
planning under uncertainty
policy iteration
factored mdps
e learning
risk sensitive
reward function
reinforcement learning algorithms
infinite horizon
active learning
average cost
decision processes
sequential decision making under uncertainty
decentralized control
markov decision process
action sets
reachability analysis
state transition
interval estimation