Robust Batch Policy Learning in Markov Decision Processes.

Zhengling Qi Peng Liao

Published in: CoRR (2020)

Keyphrases

markov decision processes
reinforcement learning
optimal policy
partially observable
state space
policy iteration
model based reinforcement learning
continuous state spaces
average reward
learning algorithm
average cost
infinite horizon
markov games
planning under uncertainty
action space
action selection
stochastic games
finite state
decision processes
partially observable markov decision processes
continuous state
policy evaluation
dynamic programming
factored mdps
reward function
multi agent
transition matrices
real time dynamic programming