Near-Optimal Randomized Exploration for Tabular Markov Decision Processes.

Zhihan Xiong Ruoqi Shen Qiwen Cui Maryam Fazel Simon S. Du

Published in: NeurIPS (2022)

Keyphrases

markov decision processes
model based reinforcement learning
interval estimation
state space
optimal policy
dynamic programming
reinforcement learning
transition matrices
finite state
policy iteration
factored mdps
reinforcement learning algorithms
reachability analysis
average reward
decision theoretic planning
average cost
action space
planning under uncertainty
action sets
infinite horizon
decision processes
state abstraction
finite horizon
semi markov decision processes
state and action spaces
markov decision process
partially observable