Optimizing Quantiles in Preference-Based Markov Decision Processes.

Hugo Gilbert Paul Weng Yan Xu

Published in: AAAI (2017)

Keyphrases

markov decision processes
optimal policy
transition matrices
finite state
dynamic programming
reinforcement learning
state space
reachability analysis
policy iteration
average cost
risk sensitive
finite horizon
partially observable
model based reinforcement learning
decision theoretic planning
planning under uncertainty
sliding window
action space
infinite horizon
average reward
markov decision process
reinforcement learning algorithms
factored mdps
real time dynamic programming
learning algorithm
discounted reward
continuous state spaces
decision processes
decision making