Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs with Short Burn-In Time.

Xiang Ji Gen Li

Published in: CoRR (2023)

Keyphrases

markov decision processes
total reward
average cost
dynamic programming
finite horizon
average reward
reinforcement learning
optimal policy
model free reinforcement learning
worst case
state space
finite state
markov decision process
infinite horizon
long run
lower bound
policy iteration
optimal control
linear programming