Publication: Safe Reinforcement Learning for Single Train Trajectory Optimization via Shield SARSA.