Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning.

Alexander Politowicz Sahisnu Mazumder Bing Liu

Published in: CoRR (2024)

Keyphrases

reinforcement learning
function approximation
machine learning
reinforcement learning algorithms
markov decision processes
state space
construction process
dynamic programming
markov decision process
learning algorithm
temporal difference
optimal policy
data sets
transfer learning
multi agent
real time
learning process
optimal control
model free
action selection
objective function
case study
robot control
neural network
multi agent reinforcement learning
coal mining