Learning Policies for Markov Decision Processes from Data.

Manjesh Kumar Hanawal Hao Liu Henghui Zhu Ioannis Ch. Paschalidis

Published in: CoRR (2017)

Keyphrases

markov decision processes
optimal policy
reinforcement learning
dynamic programming
state space
decision processes
learning algorithm
learning tasks
machine learning
probability distribution
supervised learning
markov chain
finite state
average cost
average reward
stochastic games