Online Shielding for Reinforcement Learning.

Bettina Könighofer Julian Rudolf Alexander Palmisano Martin Tappler Roderick Bloem

Published in: CoRR (2022)

Keyphrases

reinforcement learning
online learning
real time
multi agent
supervised learning
function approximation
real world
data mining
learning algorithm
social networks
bayesian networks
multi agent systems
optimal policy
markov decision processes
policy gradient