Constrained Markov Decision Processes with Expected Total Reward Criteria.

Anna Jaskiewicz Andrzej S. Nowak

Published in: SIAM J. Control. Optim. (2019)

Keyphrases

total reward
markov decision processes
average reward
optimal policy
reinforcement learning algorithms
finite state
reinforcement learning
state space
optimality criterion
policy iteration
stationary policies
decision processes
transition matrices
decision theoretic planning
action selection
dynamic programming
average cost
action space
infinite horizon
partially observable markov decision processes
markov decision process
reward function
long run
planning under uncertainty
sufficient conditions
decision making