Safe Policy Improvement for POMDPs via Finite-State Controllers.

Thiago D. Simão Marnix Suilen Nils Jansen

Published in: CoRR (2023)

Keyphrases

partially observable markov decision processes
optimal policy
policy search
markov decision problems
partially observable
policy gradient
reinforcement learning
markov decision processes
state space
belief state
infinite horizon
finite state
markov decision process
expected reward
dynamic programming
point based value iteration
search algorithm
continuous state
belief space
decision processes
finite horizon
linear programming
policy gradient methods