Robust Phi-Divergence MDPs.

Chin Pang Ho Marek Petrik Wolfram Wiesemann

Published in: CoRR (2022)

Keyphrases

markov decision processes
reinforcement learning
decision making
state space
neural network
robust estimation