Markov Decision Processes with Long-Term Average Constraints.

Mridul Agarwal Qinbo Bai Vaneet Aggarwal

Published in: CoRR (2021)

Keyphrases

markov decision processes
long term
average cost
optimal policy
state space
finite state
transition matrices
discounted reward
planning under uncertainty
policy iteration
reinforcement learning
decision theoretic planning
finite horizon
reachability analysis
dynamic programming
average reward
partially observable
markov decision process
model based reinforcement learning
factored mdps
reward function
risk sensitive
policy evaluation
reinforcement learning algorithms
action sets
decision processes
infinite horizon
sufficient conditions
state and action spaces