Regret Minimization in MDPs with Options without Prior Knowledge.

Ronan Fruit Matteo Pirotta Alessandro Lazaric Emma Brunskill

Published in: NIPS (2017)

Keyphrases

regret minimization
prior knowledge
markov decision processes
nash equilibrium
game theoretic
reinforcement learning
factored mdps
state space
game theory
optimal policy
finite horizon
decision theoretic planning
domain knowledge
training data
partially observable
semi markov decision processes
probabilistic planning
real time dynamic programming
factored markov decision processes
markov decision problems
policy iteration
markov decision process
finite state
decision problems
decision diagrams
option pricing
planning under uncertainty
initial state