Provable Reward-Agnostic Preference-Based Reinforcement Learning.

Wenhao Zhan Masatoshi Uehara Wen Sun Jason D. Lee

Published in: ICLR (2024)

Keyphrases

reinforcement learning
state space
function approximation
temporal difference learning
learning algorithm
markov decision processes
reinforcement learning methods
reinforcement learning algorithms
eligibility traces
partially observable environments
optimal policy
multi agent
user preferences
policy search
temporal difference
robotic control
reward function
least squares
control policy
model free
average reward
case based problem solving
optimal control
evaluation function
learning problems
transfer learning
supervised learning