Dueling Posterior Sampling for Preference-Based Reinforcement Learning.

Ellen R. Novoseller Yanan Sui Yisong Yue Joel W. Burdick

Published in: CoRR (2019)

Keyphrases

reinforcement learning
markov chain monte carlo
metropolis hastings
sampling algorithm
reinforcement learning algorithms
random sampling
function approximation
probability distribution
monte carlo
machine learning
data sets
learning problems
bayesian framework
posterior probability
robotic control
state space
markov decision processes
multi agent
posterior distribution
action selection
markov chain
learning algorithm
sampling methods
class probabilities
sampling strategy
multi agent reinforcement learning
sampling strategies
parameter estimation
optimal policy