Zap Q-Learning for Optimal Stopping.

Shuhang Chen Adithya M. Devraj Ana Busic Sean P. Meyn

Published in: ACC (2020)

Keyphrases

optimal stopping
finite horizon
optimal policy
reinforcement learning
brownian motion
state space
multi agent
markov decision processes
learning algorithm
differential equations
dynamic programming
long run
infinite horizon
markov decision process
markov chain
diffusion process
production system
finite state
heavy traffic
image processing