Single Episode Policy Transfer in Reinforcement Learning.

Jiachen Yang Brenden K. Petersen Hongyuan Zha Daniel Faissol

Published in: ICLR (2020)

Keyphrases

reinforcement learning
optimal policy
transfer learning
approximate dynamic programming
markov decision processes
action selection
partially observable domains
machine learning
partially observable environments
function approximators
policy iteration
markov decision process
partially observable
model free
state space
multi agent
temporal difference
optimal control
average reward
policy making
policy gradient
actor critic
policy search
reinforcement learning problems
learning process