Inverse Preference Learning: Preference-based RL without a Reward Function.

Joey Hejna Dorsa Sadigh

Published in: CoRR (2023)

Keyphrases

reward function
preference learning
reinforcement learning
reinforcement learning algorithms
markov decision processes
gaussian processes
optimal policy
state space
ordinal regression
pairwise comparison
inverse reinforcement learning
recommender systems
multiple agents
active learning
preference relations
user preferences
dynamic programming
ranking functions
learning algorithm
transition probabilities
model free
multi agent
gaussian process
multi objective
training data
temporal difference
state variables
objective function