Policy learning for time-bounded reachability in Continuous-Time Markov Decision Processes via doubly-stochastic gradient ascent.

Published in: CoRR (2016)

Keyphrases