Improved Policy Optimization for Online Imitation Learning.

Jonathan Wilder Lavington Sharan Vaswani Mark Schmidt

Published in: CoRR (2022)

Keyphrases

imitation learning
reinforcement learning
optimal policy
robotic systems
action selection
humanoid robot
maximum margin