Skill Reward for Safe Deep Reinforcement Learning.

Jiangchang Cheng Fumin Yu Hongliang Zhang Yinglong Dai

Published in: UbiSec (2021)

Keyphrases

reinforcement learning
eligibility traces
function approximation
state space
multi agent
behavioural cloning
learning algorithm
reinforcement learning algorithms
model free
control strategies
reward function
markov decision processes
transfer learning
supervised learning
total reward
learning process
learning problems
optimal policy
temporal difference
partially observable environments
reward shaping
reinforcement learning methods
learning environment
robotic control
policy gradient
average reward
learning agent
deep learning
partially observable