Reinforcement Learning by Guided Safe Exploration.

Qisong Yang Thiago D. Simão Nils Jansen Simon H. Tindemans Matthijs T. J. Spaan

Published in: CoRR (2023)

Keyphrases

reinforcement learning
active exploration
exploration strategy
action selection
exploration exploitation
model based reinforcement learning
state space
markov decision processes
function approximation
autonomous learning
learning algorithm
reinforcement learning algorithms
machine learning
temporal difference
optimal policy
learning capabilities
control problems
temporal difference learning
active learning
learning process
model free
search strategies
robot control
markov decision problems
supervised learning
policy search
multi agent
real world
balancing exploration and exploitation