Optimizing the Expected Mean Payoff in Energy Markov Decision Processes.

Tomás Brázdil Antonín Kucera Petr Novotný

Published in: ATVA (2016)

Keyphrases

markov decision processes
total reward
optimal policy
finite state
reinforcement learning
policy iteration
state space
transition matrices
reinforcement learning algorithms
risk sensitive
infinite horizon
planning under uncertainty
stationary policies
decision theoretic planning
reachability analysis
average reward
model based reinforcement learning
action space
factored mdps
dynamic programming
average cost
partially observable
decision processes
action sets
game theory
stochastic games
semi markov decision processes
reward function