A unified algorithm framework for mean-variance optimization in discounted Markov decision processes.

Shuai Ma Xiaoteng Ma Li Xia

Published in: Eur. J. Oper. Res. (2023)

Keyphrases

markov decision processes
dynamic programming
model based reinforcement learning
policy iteration
state space
average reward
linear programming
optimal policy
finite state
np hard
probabilistic model
computational complexity
learning algorithm
continuous state spaces
finite horizon
markov decision process
total reward
long run
decision theoretic planning
factored mdps
state abstraction
probabilistic planning
reinforcement learning algorithms
convergence rate
search space
search algorithm