Batch Active Preference-Based Learning of Reward Functions.

Erdem Biyik Dorsa Sadigh

Published in: CoRR (2018)

Keyphrases

learning process
reinforcement learning
learning algorithm
prior knowledge
search space
active learning
supervised learning
optimal policy
policy search