Advantage based value iteration for Markov decision processes with unknown rewards.

Pegah Alizadeh Yann Chevaleyre François Lévy

Published in: IJCNN (2016)

Keyphrases

markov decision processes
finite state
reinforcement learning
state space
optimal policy
dynamic programming
planning under uncertainty
policy iteration
reinforcement learning algorithms
transition matrices
average reward
infinite horizon
decision theoretic planning
finite horizon
reachability analysis
discounted reward
action space
average cost
total reward
reward function
sequential decision making under uncertainty
markov decision process
factored mdps
partially observable
model based reinforcement learning
risk sensitive