Provable Offline Preference-Based Reinforcement Learning.

Wenhao Zhan Masatoshi Uehara Nathan Kallus Jason D. Lee Wen Sun

Published in: ICLR (2024)

Keyphrases

reinforcement learning
function approximation
state space
multi agent
reinforcement learning algorithms
direct policy search
control problems
temporal difference
model free
supervised learning
transfer learning
optimal control
markov decision processes
real time
optimal policy
user preferences
dynamic programming
machine learning
special case
learning process
preference relations
search algorithm
learning algorithm
function approximators
transition model
robotic control