B-Pref: Benchmarking Preference-Based Reinforcement Learning.

Kimin Lee Laura Smith Anca D. Dragan Pieter Abbeel

Published in: CoRR (2021)

Keyphrases

reinforcement learning
function approximation
model free
reinforcement learning algorithms
multi agent
state space
direct policy search
transfer learning
optimal policy
temporal difference learning
autonomous learning
learning algorithm
robotic control
learning classifier systems
control problems
policy gradient
learning problems
optimal control
dynamic programming
machine learning
real world
action selection
temporal difference
markov decision processes
supervised learning
case based reasoning
case study
data mining