Unsupervised Domain Adaptation with Dynamics-Aware Rewards in Reinforcement Learning.

Jinxin Liu Hao Shen Donglin Wang Yachen Kang Qiangxing Tian

Published in: CoRR (2021)

Keyphrases

reinforcement learning
markov decision processes
function approximation
state space
learning algorithm
reinforcement learning algorithms
temporal difference
robotic control
supervised learning
optimal policy
dynamic model
model free
learning capabilities
reward shaping
hidden markov models
learning process
multi agent
reward function
multi agent reinforcement learning
data sets
complex domains
policy iteration