Horizon-Free Regret for Linear Markov Decision Processes.

Zihan Zhang Jason D. Lee Yuxin Chen Simon Shaolei Du

Published in: ICLR (2024)

Keyphrases

markov decision processes
total reward
reward function
finite state
transition matrices
optimal policy
state space
reinforcement learning
dynamic programming
average reward
decision theoretic planning
reachability analysis
planning under uncertainty
reinforcement learning algorithms
partially observable
decision processes
risk sensitive
markov decision process
discount factor
expected reward
factored mdps
policy iteration
infinite horizon
average cost
finite horizon
np hard
action sets
state abstraction
model based reinforcement learning
lower bound