MDP environments for the OpenAI Gym.

Published in: CoRR (2017)

Keyphrases

markov decision processes
optimal policy
reinforcement learning
utility function
markov decision process
dynamic environments
neural network
real world
linear programming
linear program
finite state
policy iteration