Optimizing Quantiles in Preference-based Markov Decision Processes.

Hugo Gilbert Paul Weng Yan Xu

Published in: CoRR (2016)

Keyphrases

markov decision processes
optimal policy
state space
finite state
dynamic programming
reinforcement learning
policy iteration
transition matrices
finite horizon
planning under uncertainty
reinforcement learning algorithms
reachability analysis
decision theoretic planning
partially observable
model based reinforcement learning
sliding window
decision processes
average cost
infinite horizon
state and action spaces
risk sensitive
semi markov decision processes
action sets
average reward
data mining
markov decision process
real time dynamic programming
interval estimation
least squares