Safe Reinforcement Learning via Observation Shielding.

Joe McCalmon Tongtong Liu Reid Goldsmith Andrew Cyhaniuk Talal Halabi Sarra Alqahtani

Published in: HICSS (2023)

Keyphrases

reinforcement learning
function approximation
temporal difference
multi agent
state space
temporal difference learning
learning algorithm
markov decision processes
machine learning
multi agent reinforcement learning
reinforcement learning algorithms
model free
optimal policy
artificial neural networks
case study
supervised learning
dynamic programming
optimal control
search space
robot control
markov decision process
genetic algorithm
evolutionary learning
databases
transition model
perceptual aliasing
robotic control