Safety and Liveness Guarantees through Reach-Avoid Reinforcement Learning.

Kai-Chieh Hsu Vicenç Rúbies Royo Claire J. Tomlin Jaime F. Fisac

Published in: CoRR (2021)

Keyphrases

reinforcement learning
temporal difference
learning algorithm
function approximation
state space
markov decision processes
learning process
reinforcement learning algorithms
optimal policy
model free
case study
partially observable
function approximators
database
road safety
coal mining
policy gradient
partial observability
optimal control
hidden markov models