Optimal policy trees.

Maxime Amram Jack Dunn Ying Daisy Zhuo

Published in: Mach. Learn. (2022)

Keyphrases

optimal policy
reinforcement learning
finite horizon
markov decision processes
dynamic programming
state space
decision problems
infinite horizon
decision trees
state dependent
long run
multistage
finite state
markov decision process
average cost
bayesian reinforcement learning
average reward
sufficient conditions
policy iteration
control policies
asymptotically optimal
lost sales
reward function