Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning.

Huy Hoang Tien Mai Pradeep Varakantham

Published in: CoRR (2023)

Keyphrases

reinforcement learning
state space
incremental learning
markov decision processes
function approximation
reinforcement learning algorithms
multi agent
temporal difference
model free
optimal policy
learning algorithm
incremental clustering
data driven
multi agent reinforcement learning
incremental version
evaluation function
learning problems
supervised learning
artificial intelligence
partially observable
markov decision process
batch mode
reinforcement learning methods
incremental algorithms
data sets
policy search
direct policy search