A Structure-aware Online Learning Algorithm for Markov Decision Processes.

Arghyadip Roy Vivek S. Borkar Abhay Karandikar Prasanna Chaporkar

Published in: CoRR (2018)

Keyphrases

markov decision processes
reinforcement learning
learning algorithm
reinforcement learning algorithms
state space
optimal policy
finite state
decision processes
finite horizon
policy iteration
planning under uncertainty
risk sensitive
dynamic programming
transition matrices
policy evaluation
action sets
model based reinforcement learning
markov decision process
average reward
partially observable
factored mdps
infinite horizon
reachability analysis
temporal difference
learning tasks
collaborative filtering
interval estimation