Align-RUDDER: Learning From Few Demonstrations by Reward Redistribution.

Vihang P. Patil Markus Hofmarcher Marius-Constantin Dinu Matthias Dorfer Patrick M. Blies Johannes Brandstetter Jose A. Arjona-Medina Sepp Hochreiter

Published in: CoRR (2020)

Keyphrases