Information asymmetry in KL-regularized RL.

Alexandre Galashov Siddhant M. Jayakumar Leonard Hasenclever Dhruva Tirumala Jonathan Schwarz Guillaume Desjardins Wojciech M. Czarnecki Yee Whye Teh Razvan Pascanu Nicolas Heess

Published in: CoRR (2019)

Keyphrases

information asymmetry
reinforcement learning
kullback leibler
least squares
function approximation
multi agent
total least squares
optimal policy
lead time
reinforcement learning algorithms
learning process
regularized least squares
learning agents
kl divergence
action selection
model free
learning classifier systems
action space
optimal control
learning algorithm