Blackwell Online Learning for Markov Decision Processes.

Tao Li Guanze Peng Quanyan Zhu

Published in: CISS (2021)

Keyphrases

markov decision processes
online learning
state space
finite state
reinforcement learning
dynamic programming
optimal policy
policy iteration
transition matrices
e learning
average cost
decision theoretic planning
reinforcement learning algorithms
partially observable
markov decision process
finite horizon
decision processes
average reward
active learning
factored mdps
action space
reachability analysis
stochastic shortest path
infinite horizon
risk sensitive
planning under uncertainty
state and action spaces
decision diagrams
model based reinforcement learning
linear programming