Stochastic Primal-Dual Method for Learning Mixture Policies in Markov Decision Processes.

Masoud Badiei Khuzani Varun Vasudevan Hongyi Ren Lei Xing

Published in: CDC (2019)

Keyphrases

markov decision processes
dynamic programming
reinforcement learning
optimal policy
objective function
primal dual
learning algorithm
linear programming
continuous state spaces
model based reinforcement learning
reward function
simplex algorithm