Batch Active Learning of Reward Functions from Human Preferences.

Erdem Biyik Nima Anari Dorsa Sadigh

Published in: ACM Trans. Hum. Robot Interact. (2024)

Keyphrases

active learning
reward function
batch mode
decision making
semi supervised
learning algorithm
inverse reinforcement learning
markov decision processes
data mining
preference elicitation
image segmentation
reinforcement learning
transition probabilities
markov decision process
simple examples